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了 中 


前 


这 是 一 本 介绍 协议 栈 源 代码 的 书 ， 不 是 介绍 “协议 ”的 书 。 对 协议 非常 感 兴趣 的 
读者 ， 本 书 是 不 太 适 合 的 ， 要 看 最 好 是 去 看 RFC。 由 于 只 分 析 内 核 最 主要 的 代码 ， 所 
以 提前 跟 读 者 打招呼 : 本 书 不 是 圣经 。 

没有 写 书 的 经 验 ， 没 有 流畅 的 表达 ， 只 有 比较 随 性 的 记录 ， 这 就 是 本 文档 一 一 或 
者 本 书 的 整体 风格 。 我 的 目标 读者 是 广大 对 Linux 和 IP 协议 栈 实现 感 兴趣 的 读者 。 为 
什么 要 写 这 么 一 本 书 ， 抛 砖 引 玉 也 。 大 家 都 知道 Linux 内 核 已 经 发 展 到 了 2.6.26， 其 
在 服务 器 已 经 证 明 其 设计 的 精巧 和 健壮 ， 当 内 核 也 从 非 抢 占 式 发 展 成 为 抢占 式 后 ， 笑 
入 设备 市 场 上 也 将 要 掀起 一 股 风浪 。 于 是 Linux 内 核 分 析 的 资料 层出不穷 ， 但 有 的 太 
老 〈 内 核 的 代码 还 使 用 2.2 的 )， 而 有 的 对 网 络 部 分 不 甚 详细， 于 是 笔者 萌发 了 分 析 整 
个 Linux 网 络 协议 栈 的 想法 。 和 希望 能 在 研究 一 些 经 典 代码 时 发 现 与 时 俱 进 的 部 分 ， 抛 
砖 引 玉 ， 更 多 的 人 参与 到 研究 网 络 协议 栈 的 实现 技巧 上 一 一 而 不 是 协议 的 REFC 文档 。 
由 于 本 人 在 网 络 方向 做 过 一 些 开 发 ， 所 以 对 网 络 内 部 实现 很 感 兴趣 ， 于 是 在 利用 
学 习 和 工作 时 间 之 余 记 录 了 分 析 和 调试 Linux 及 FreeBSD 的 网 络 协 议 栈 。 但 本 人 较 懒 ， 
本 来 应 该 于 2006 年 就 可 以 写 出 这 本 书 , 但 由 于 中 国学 生 的 特殊 情况 , 我 浪费 了 很 多 时 
司 ， 后 来 再 由 于 中 国 软件 工程 师 的 特殊 情况 ， 我 又 虚度 了 很 多 光阴 ， 直 到 看 见 《 深 入 
理解 Linux 网 络 内 幕 》 面 市 ， 本 人 才 大 呼 晚 亦 ， 饰 愧 啊 。 但 我 想 许多 有 心 写 书 但 无 力 / 
时 / 财 的 同行 们 应 该 和 我 有 相似 的 感叹 , 我 们 咋 就 没有 这 么 多 时 间 和 注意 力 放 在 我 们 热 
爱 的 事业 上 呢 ? 成 天 为 了 一 些 琐碎 却 又 不 得 不 做 的 事情 头疼 不 已 ， 突 然 有 一 天 发 现 自 
己 变 老 而 一 事 无 成 时 ， 心 中 苦 问 谁 人 解 ? 

本 人 从 2005 年 计划 写 这 本 书 ， 当 时 研究 的 内 核 版 本 是 2.6.5， 但 是 3 年 后 我 使 用 

了 RHEL5 作为 研究 平台 ， 内 核 却 升级 到 了 2.6.18， 就 协议 栈 的 部 分 代码 就 已 经 发 生 了 
很 多 变化 ， 尽 管 最 新 的 内 核 版 本 是 2.6.26 版 本 ， 但 我 还 是 锁定 了 这 个 版 本 ， 上 毕竟 是 服 
务 器 使 用 的 版 本 呀 。 本 书 的 编写 计划 也 和 Linux 内 核 的 发 行 版 本 一 致 ， 即 先 出 0.1 版 ， 
包括 了 一 些 基 本 框架 就 发 布 出 来 ,收集 读者 的 意见 ， 修 改 一 些 错误 的 地 方 ， 然后 出 0.2 
版 ， 在 此 基础 上 再 增加 一 些 部 分 ， 比 如 SCTP、 无 线 等 内 容 ， 形 成 0.3 版 ， 以 次 类 推 ， 
达到 大 部 分 人 可 以 接受 的 程度 。 
由 于 本 人 还 有 一 份 不 体面 也 没有 前 途 的 职业 ， 工 作 会 越 来 越 性 ， 只 能 在 业余 时 间 
赶 着 写 这 本 书 , 所 以 造成 本 文档 有 不 少 遗 漏 甚至 误解 , 希望 大 家 在 拍 砖 的 时 候 轻 点 砸 。 
最 后 ， 我 的 语言 功底 一 般 ， 如 果 同 行 们 见 到 错误 不 要 太 苛 责 于 我 ， 毕 竟 这 是 我 的 第 一 
篇 文章 。 能 提出 宝贵 的 意见 ， 我 绝对 能 洗 耳 藕 听 。 























































































































































































































我 的 邮箱 是 blade ly @ yahoo.com.cn 
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写 一 本 书 真 累 ， 真 的 ， 我 很 佩服 安德鲁 : 坦 尼 伯 姆 (Andrew Tanenbaum), W.Richard 
Stevens、 伐 捷 等 等 技术 牛人 能 写 出 那么 多 经 典 书 ， 他 们 是 我 们 一 生 追 求 的 标杆 ， 让 我 
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BIE 协议 栈 概述 
1.1 ”操作 系统 及 网 络 协议 介绍 


1.1.1 Linux 操作 系统 架构 简介 

可 以 说 ，Linux 是 21 世纪 初 最 火 的 操作 系统 。 注 意 ， 我 只 在 这 时 说 它 是 最 “ 火 ” 的 ， 而 不 是 最 “好 ” 
的 。 最 好 的 定义 对 于 每 个 人 都 不 一 样 ， 为 避免 产生 口水 仗 ， 我 不 在 书 中 对 Linux 进行 评价 。 不 过 我 得 先 
介绍 一 下 Linux 的 架构 。 

Linux 肯定 是 一 款 大 内 核 操 作 系 统 ，Linus Tovals 和 Tanenbaum 的 网 上 争论 余音 绕 粱 ， 相 信 知 道 此 事 
的 读者 一 定 还 记得 Linus 支持 大 内 核 的 建议 吧 。 虽然 说 Linux 是 以 大 内 核 的 方式 运行 , 但 编译 方式 已 经 吸 
收 了 Windows 的 动态 加 载 模块 的 特点 。 也 就 是 说 ， 彼 时 〈80“s) 的 大 内 核 和 现在 说 的 大 内 核 不 完全 是 一 
个 概念 。 那 时 候 的 大 内 核 ， 不 仅 运 行 的 时 候 所 有 驱动 、 文 件 系统 、 包 括 本 书 要 讨论 的 协议 栈 要 运行 在 内 
核 态 ， 而 且 编 译 的 时 候 ， 编 译 的 文件 必须 同时 被 编译 到 一 个 大 的 三 进 制 文件 中 。 如 今 的 内 核 ， 在 编译 的 
时 候 ， 可 以 有 选择 的 加 入 或 减 去 某 部 分 代码 ， 使 其 编译 出 来 的 内 核 变 “小 ”而 一 些 驱 动 程序 和 模块 可 以 
在 系统 起 来 以 后 再 加 载 。 那 么 就 单纯 的 那个 内 核 镜 像 而 言 ， 真 的 还 不 算 “ 大 ” 这 个 时 候 要 说 Linux 是 大 
还 是 小 还 真有 点 难 。 
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操作 系统 内 核 可 能 是 微 内 核 ， 也 可 能 是 大 内 核 (后 者 有 时 称 之 为 宏 内 核 Macrokernel)。 按 照 类 似 封 装 
的 形式 ， 这 些 术 语 定 义 如 下 : 

€ 微 内核 (Microkernel kernel) 一 一 在 微 内 核 中 ,大 部 分 内 核 都 作为 独立 的 进程 在 特权 状态 下 运行 ， 
它们 通过 消息 传递 进行 通讯 。 在 典型 情况 下 ， 每 个 概念 模块 都 有 一 个 进程 。 因 此 ， 如 果 在 设计 中 有 一 个 
系统 调用 模块 ,那么 就 必然 有 一 个 相应 的 进程 来 接收 系统 调用 ， 并 和 能 够 执行 系统 调用 的 其 它 进程 (或 
模块 ) 通讯 以 完成 所 需 任 务 。 在 这 些 设计 中 ， 微 内 核 部 分 经 常 只 不 过 是 一 个 消息 转发 站 : 当 系 统 调用 
模块 要 给 文件 系统 模块 发 送 消息 时 ， 消 息 直 接 通过 内 核 转 发 。 这 种 方式 有 助 于 实现 模块 间 的 隔离 。( 某 
些 时 候 ， 模 块 也 可 以 直接 给 其 它 模块 传递 消息 。) 在 一 些微 内 核 的 设计 中 ， 更 多 的 功能 ， 如 I/O 等 ， 也 
都 被 封装 在 内 核 中 了 。 但 是 最 根本 的 思想 还 是 要 保持 微 内 核 尽 量 小 , 这 样 只 需要 把 微 内 核 本 身 进行 移植 
就 可 以 完成 将 整个 内 核 移植 到 新 的 平台 上 。 其 它 模 块 都 只 依赖 于 微 内 核 或 其 它 模 块 ， 并 不 直接 直接 依赖 
硬件 。 微 内 核 设计 的 一 个 优点 是 在 不 影响 系统 其 它 部 分 的 情况 下 ， 用 更 高 效 的 实现 代替 现 有 文件 系统 
模块 的 工作 将 会 更 加 容易 。 我 们 甚至 可 以 在 系统 运行 时 将 开发 出 的 新 系统 模块 或 者 需要 替换 现 有 模块 的 
模块 直接 而 且 迅 速 的 加 入 系统 。 另 外 一 个 优点 是 不 需要 的 模块 将 不 会 被 加 载 到 内 存 中 ,因此 微 内 核 就 可 
以 更 有 效 的 利用 内 存 。 

€ 大 内 核 (Monolithic kernel) 一 一 单 内 核 是 一 个 很 大 的 进程 。 它 的 内 部 又 可 以 被 分 为 若干 模块 (或 
者 是 层次 或 其 它 )。 但 是 在 运行 的 时 候 ， 它 是 一 个 独立 的 二 进 制 大 映 象 。 其 模块 间 的 通讯 是 通过 直接 调 
用 其 它 模块 中 的 函数 实现 的 ， 而 不 是 消息 传递 。 

单 内 核 的 支持 者 声称 微 内 核 的 消息 传递 开销 引起 了 效率 的 损失 。 微 内 核 的 支持 者 则 认为 因此 而 增加 
的 内 核 设 计 的 灵活 性 和 可 维护 性 可 以 弥补 任何 损失 。 就 像 Linux 内 核 是 微 内 核 和 单一 内 核 的 混合 产物 一 
Jf. Linux 内 核 基 本 上 是 单一 的 ， 但 是 它 并 不 是 一 个 纯粹 的 集成 内 核 。 为 什么 Linux 必然 是 单 内 核 的 呢 ? 
一 个 方面 是 历史 的 原因 : 在 Linus 的 观点 看 来 ,通过 把 内 核 以 单一 的 方式 进行 组 织 并 在 最 初始 的 空间 中 运 
行 是 相当 容易 的 事情 。 这 种 决策 避免 了 有 关 消 息 传 递 体系 结构 ， 计 算 模块 装载 方式 等 方面 的 相关 工作 。 
(内 核 模 块 系统 在 随后 的 几 年 中 又 进行 了 不 断 地 改进 。) 

如 果 Linux 是 纯 微 内 核 设 计 ， 那 么 向 其 它 体系 结构 上 的 移植 将 会 比较 容易 。 实 际 的 情况 是 ，Linux 内 
核 的 移植 虽然 不 是 很 简单 ， 但 也 绝 不 是 不 可 能 的 。 虽 然 这 比 微 内 核 的 移植 需要 更 多 的 代码 ， 但 是 Linux 
的 支持 者 将 会 提出 ， 这 样 的 Linux 内 核 移植 版 本 比 微 内 核 更 能 够 有 效 的 利用 底层 硬件 ， 因 而 移植 过 程 中 
的 额外 工作 是 能 够 从 系统 性 能 的 提高 上 得 到 补偿 的 。 

这 种 特殊 设计 的 权衡 也 不 是 很 轻松 就 可 以 达到 的 ， 单 内 核 的 实现 策略 公然 违背 了 传统 的 看 法 ， 后 者 
认为 微 内 核 是 未 来 发 展 的 趋势 。 但 是 由 于 单一 模式 (大 部 分 情况 下 ) 在 Linux 中 运行 状态 良好 ， 而 且 内 
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核 移植 相对 来 说 比较 困难 ， 但 没有 明显 地 阻碍 程序 员 团 体 的 工作 ， 他 们 已 经 热情 高 涨 地 把 内 核 成 功 的 移 
植 到 了 现存 的 大 部 分 实际 系统 中 ， 更 不 用 说 类 似 掌上 型 电脑 的 一 些 看 起 来 很 不 实际 的 目标 了 。 只 要 Linux 


的 众多 特点 仍然 值得 移植 ， 新 的 移植 版 本 就 会 不 断 涌现 。 








这 不 是 自 相 矛盾 吗 ? 有 的 读者 可 能 会 疑惑 了 。 其 实 ， 大 和 小 内 核 之 争 已 经 过 时 了 ， 连 Windows 也 号 


称 过 微 内 核 ， 那 么 有 必要 这 么 认真 吗 ? FSA BEE, BRK 




















入 式 ， 没 有 一 款 商 用 《包括 开源 ) 的 操作 





系统 是 以 真正 学 术 上 的 微 内 核 方式 存在 。 也 就 是 说 ， 所 有 的 商用 操作 系统 都 是 把 驱动 、 文 件 系 统 、 协 议 








栈 等 塞 入 内 核 之 中 ， 原 因 在 于 安全 和 效率 。 这 就 不 必 多 说 了 。 


把 这 些 模块 放 入 内 核 中 确实 提高 了 安全 性 和 效率 ， 但 也 引入 了 新 的 问题 ， 比 如 说 进程 之 间 的 调度 ， 
进程 之 间 同 步 互 斥 等 。Linux 内 核 在 发 展 初 期 由 于 没有 考虑 到 这 些 问题 ， 以 至 于 在 实时 性 能 上 为 人 诉 病 。 
不 过 本 书 的 内 容 与 实时 性 关系 不 大 ， 如 果 读 者 希望 能 进一步 了 解 的 话 ， 可 以 和 笔者 讨论 。 


























下 图 是 Linux 整体 的 一 个 层次 图 : 
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图 表 1-1 操作 系统 架构 图 


从 上 图 可 以 看 出 ， 卫 Stack 就 是 本 书 要 分 析 的 模块 ， 坦 白地 说 ， 这 个 模块 并 不 是 一 台 机 器 所 最 需要 的 
部 分 ,因为 并 不 是 每 个 机 器 都 要 上 网 、 聊 天 、 收 发 邮件 、 联 机 对 战 。。。。。。 什么 ? 还 有 不 能 聊天 的 机 器 吗 ? 


















































咽 ， 笔 者 的 机 器 目前 正 是 如 此 。 
从 这 个 模块 的 位 置 来 看 ， 它 牵扯 到 内 核 中 大 部 分 模块 ， 可 



























































以 说 不 了 解 其 他 任何 一 个 部 分 ， 对 了 解 协 








议 栈 的 工作 行为 都 有 困难 。 这 也 是 IP Stack 的 难点 : EH rfe 去 单独 理解 IP 协议 ， 没 有 太 大 困难 ， 但 要 
























































1.1.2 网 络 协议 发 展 介 绍 

















真正 看 届 Linux 是 如 何 实现 的 ， 则 需要 比较 广博 的 操作 系统 知识 。 
THET IP Stack 在 操作 系统 内 的 位 置 后 ， 那 么 我 就 开始 说 网 络 了 。 


“IP 化 ”是 这 两 年 比较 热门 的 一 个 概念 。 从 计算 机 发 展 到 如 今 ， 实 际 上 曾经 出 现 过 多 种 网 络 协议 ， 





























从 物理 层 到 应 用 层 ， 无 数 公司 发 明了 自己 的 网 络 协议 ， 其 实 有 
































的 性 能 还 不 错 ， 只 是 由 于 生 不 逢 时 或 商业 





原因 ， 消 失 在 大 家 的 视野 。 而 卫 协议 ， 由 于 其 健壮 性 和 简单 性 ， 被 军 方 和 学 校 发 展 成 为 一 套 协议 族 ， 就 

















是 我 们 常 说 的 TCP/IP 协议 族 。TCP/IP 本 身 是 一 个 协议 族 ， 还 包含 了 ARP, ICMP, UDP 等 协议 。 它 从 开 
始 提 出 到 现在 的 广泛 使 用 ， 已 经 差不多 30 年 了 ， 在 这 段 时 间 内 ， 不 管 是 大 型 组 织 还 是 公司 都 提出 其 他 类 
型 的 网 络 协议 栈 试图 取代 TCP/IP, 但 都 没有 成 功 ,反而 是 全 协议 逐渐 蛋 食 其 他 网 络 市 场 的 分 额 ,比如 IPX。 

那么 IP 网 络 的 优点 在 那 呢 ? 正如 我 前 面 所 说 ， 它 简单 。 是 的 ， 它 对 应 用 人 员 来 说 比较 简单 ， 但 代码 
可 不 简约 。 它 是 一 扒 小 协议 和 数据 的 集合 ， 实 现 的 复杂 给 人 带 来 的 好 处 就 在 于 管理 简单 ， 因 为 “智能 ” 
的 部 分 它 来 做 了 。IP 协议 栈 的 中 心 就 在 于 ， 使 用 IP 协议 将 数据 包 发 送 到 任何 网 络 ， 而 且 数 据 包 到 达 的 时 
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机 可 以 不 同 。 
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前 几 年 的 网 络 教材 上 会 提 到 ISO 提出 网 络 分 为 7 层 的 概念 ， 如 下 图 : 


ee [^ 


Tt M 


因为 事实 上 的 网 络 协议 栈 实 现 基本 采用 TCP/IP 的 4 层 架 构 ， 从 底 得 
输 层 ， 应 用 层 。 但 是 在 实际 开发 人 员 的 眼中 ， 却 是 五 层 ， 即 在 链 路 层 之 
中 将 链 路 层 简称 为 2 层 或 L2， 网 络 层 简 称 为 3 层 或 L3， 而 传输 层 即 为 4 层 或 L4。 
到 ， 我 们 的 TCPAP 协议 栈 包 含 了 图 中 若干 部 分 ， 卫 是 连接 2 层 和 4 层 的 中 枢 ， 它 不 仅 作 
为 数据 在 系统 (上 下 方向 ) 中 传送 的 纽带 ， 也 作为 机 器 间 数 据 传输 (水 平方 向 ) 的 判断 者 ， 这 就 无 形 中 




















从 下 图 


D 

















OSI 七 层 模 型 图 解 。 


为 用 户 的 应 用 程序 提供 各 种 网 络 服务 + 
一 一 浏览 器。 


将 不 同 的 数据 格式 转换 成 一 种 通用 的 格式 ， 
能 够 被 不 用 的 系统 识别 一 一 通用 的 数据 格式 * 


会 话 的 建立 ， 管 理 和 终止 通信 主机 的 对 话 ， 
为 表示 层 提供 服务 。 一 一 对 话 和 变 谈 


在 二 台 主 机 之 间 建 立 端 到 端的 连接 ， 以 及 如 
何 实现 可 靠 的 传输 一 一 流量 控制 和 可 


主机 之 间 的 连接 路径 选 择 以 及 基于 IP 的 寻 
址 。 一 一 路 径 选 择 , EHER IP 寻 址 


提供 数据 在 物理 链 足 的 传输 ,物理 寻 址 ,网 
SRL ,错误 检测 。 一 一 帧 和 介质 访问 控制 


高 低 电 平 ， 数 据 传 输 速率 ,传输 距离 ， 物 理 
连接 器 等 。 一 一 信号 和 介质 














HTTP , FIP, TELNET ， 
SMTP 等 。 + 


ASCII » JPEG » MPEG , 
WAY $e 


访问 次 序 的 安排 + 


TCP, UDP 协议 ,面向 连 


接 和 面向 无 连接 协议 + 


三 层 变换 机 ， 路 由 器 工作 
在 此 层 s IP, SPX 


二 层 变 换 机 ， 网 桥 属 于 此 
Eee» MAC? 


HUB， 中 继 器 以 及 传输 线 
路 都 尾 于 此 层 4 





EE: 链 路 层 ， 网 络 层 ， 传 
下 还 有 一 个 物理 层 。 所 以 ， 本 书 








增加 了 实现 IP 层 的 难度 。 蓝 线 即 表示 本 机 系统 的 数据 流 ， 红 线 表 示 机 器 间 的 数据 流 。ETH 代表 以 太 网 功 
能 ， 它 就 是 2 层 功能 的 一 个 具体 实现 。ARP 属于 2 层 和 3 层 之 间 的 一 个 连接 层 ， 我 们 可 以 认为 它 是 2.5 








一 样 ， 属 于 底层 的 传送 协议 即 可 。 










TCP/UDP 及 
其 它 应 用 程序 




































TCP/UDP 及 
其 它 应 用 程序 








Host B 








层 的 协议 。L2 协议 包括 了 PPP 和 SLIP 及 Ethernet， 前 两 者 不 属于 本 书 范畴 ， 只 需 知 道 它 们 和 Ethernet 









TCP/UDP/ 及 
其 它 应 用 程序 





图 表 1-21P 为 什么 重要 


图 中 所 示 IP 和 了 P 相连 ， 实 际 上 只 是 逻辑 的 概念 ， 实 际 数据 的 传输 还 是 通过 下 层 协议 再 到 物理 
远 非 图 中 画 的 这 么 简单 。 
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灵 进 行 。 





my 











从 上 面 的 图 ， 让 我 至 少 想 起 2 部 关于 机 器 人 的 电影 ， 一 部 是 90 年 代 的 《 波 波 5 D (其 中 的 主人 公 就 是 
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这 个 编号 )， 第 一 次 看 此 片 时 ， 当 我 以 为 波 波 5 号 被 击毁 的 时 候 ， 居 然 会 咽 .….. 不 可 否认 的 是 ， 它 已 经 影 
响 了 我 对 技术 的 认 知 ， 如 果菜 一 天 机 器 人 有 了 人 的 思维 和 智慧 ， 怎 么 办 ? 推广 一 下 ， 如 果 上 图 中 的 协议 
栈 具备 人 的 感情 ， 那 .…. 

另 一 部 是 2008 年 上 映 的 《机 器 人 瓦 力 》 样子 也 和 波 波 五 号 类 似 ， 也 给 了 我 一 些 感动 ， 推 荐 ! 

世界 上 的 每 一 台 机 器 通过 协议 栈 相 连 ， 其 基本 形式 大 概 也 就 是 上 图 所 示 ， 只 不 过 有 的 实现 是 Linux， 有 的 
X UNIX/BSD, Jj 554€ Windows 系统 提供 的 协议 栈 ， 当 然 还 有 一 般 人 看 不 见 的 网 络 设备 中 厂商 自己 实现 
的 协议 栈 。 




















一 类 软件 模块 都 不 能 独立 存在 ， 必 定 依托 系统 其 它 模块 的 支持 才能 工作 ， 协 议 栈 更 是 如 此 ， 由 于 
协议 栈 是 在 内 核 中 实现 ， 所 以 ， 必 须 搞 清楚 操作 系统 中 是 如 何 支 持 协议 栈 的 ， 下 图 可 以 作为 一 个 参考 : 


Appl Appl | Appl 



















































Routing System 


pora À 
| subsystem 


Driver 





图 表 1-3 真实 操作 系统 协议 栈 实现 


上 图 对 于 大 多 数 人 比较 眼熟 ,但 我 还 是 要 着 重 提 到 两 个 不 太 为 人 注意 的 模块 ,一 个 是 glibc Æ, XF 
大 多 数 从 事 软件 编程 2 年 以 下 的 读者 ， 这 个 部 分 比较 难 理解 。 其 实 我 们 几乎 无 时 无 刻 不 与 这 个 部 分 打 交 
道 ， 比 如 说 不 管 是 应 用 层 软 件 开 发 ， 还 是 嵌入 式 软件 开发 ， 我 们 用 过 的 malloc 函数 、strcpy 函数 都 是 这 
个 库 提供 的 。 D out abner 至 于 怎么 提供 ， 下 文 提 及 。 另 
一 个 要 强调 的 模块 是 INET， 它 不 属于 TCP/IP 体系 必须 的 一 个 部 分 ， 但 TCP/IP 层 的 接口 要 通过 INET 层 
a Shale 所 谓 BSD 风格 就 是 
我 们 常 说 的 socket. bind. connect. listen, send 和 recy 等 系统 接口 的 调用 风格 。 不 管 是 类 UNIX 还 是 
Windows 操作 系统 都 必须 实现 这 些 接口 ， 这 些 接口 内 部 不 仅 支 持 你 上 网 〈 就 是 AF_INET)， 还 支持 你 的 
应 用 程序 之 间 的 通信 (比如 AF_UNIX), 或 者 内 核 与 用 户 之 间 通 信 (AF_ NETLINK)， 甚 至 一 些 少见 的 协 
议 〈 比 如 AF_IPX)， 但 就 本 书 的 内 容 显 然 属于 AF_INET 层 的 范围 ， 它 封装 了 TCP/IP 的 接口 。 

从 这 幅 图 中 可 以 看 到 IP 层 并 不 是 完全 在 TCP 之 下 。 换 言 之 ， 应 用 程序 是 可 以 绕 过 TCP 层 而 直接 与 
IP 层 协 作 ， 比 如 我 们 常用 的 ping 命令 


12 ”本 书 的 组 织 和 安排 


读者 一 般 都 玩 过 搭 积木 这 种 游戏 ， 也 都 知道 积木 其 实 也 就 是 几 种 类 型 的 “ 块 ” 组 成 ， 在 搭 积木 的 时 
候 我 们 应 该 关心 要 建造 的 城堡 的 形状 而 不 是 积木 “ 块 ” 的 材质 和 硬度 等 一 些 非 常 细节 的 东西 。 分 析 代 码 
也 是 这 样 。Linux 内 核 大 量 采 用 了 几 种 通用 的 数据 结构 ， 正 如 同 积木 块 ， 如 果 每 遇 到 一 次 这 种 代码 我 就 分 
析 一 次 ， 估 计 本 书 篇 幅 会 太 大 ， 于 是 单独 拿 出 来 先 对 其 分 析 ， 记 住 其 基本 操作 方式 和 熟悉 ， 只 要 形成 了 
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思维 定 势 ， 那 么 我 们 对 Linux 内 核 的 理解 难度 会 降低 。 


1.2.1 基本 的 数据 结构 和 计算 机 术语 

本 书 的 读者 群 应 该 是 掌握 了 基本 的 Linux 编程 技术 并 对 网 络 协议 有 一 定 了 解 的 中 高 级 开发 人 员 ， 在 
讲述 各 章节 的 内 容 中 ， 许 多 浅显 的 技术 将 会 一 带 而 过 ， 不 花 太 多 的 笔墨 。 但 以 下 一 些 编码 技术 和 术语 ， 
需要 着 重 强调 。 

e 链表 结构 
链表 数据 结构 的 定义 很 简单 (节选 自 [include/linux/list.h]， 以 下 所 有 代码 ， 除 非 加 以 说 明 ， 其 余 均 取 
自 该 文件 ); 
struct list_head { 
struct list_head *next, *prev; 




























































































, 














list head 结构 包含 两 个 指向 list. head 结构 的 指针 prev 和 next， 由 此 可 见 ， 内 核 的 链表 具备 双 链 表 功 
能 ， 实 际 上 ， 通 常 它 都 组 织 成 双 循 环 链表 。 不 过 它 和 传统 教科 书 上 介绍 的 双 链 表 结 构 模 型 不 同 ， 这 里 了 
list head 没有 数据 域 。 在 Linux AAKT, 不 是 在 链表 结构 中 包含 数据 ， 而 是 在 数据 结构 中 包含 链表 节 
点 。 也 就 是 说 ， 开 发 者 预计 某 种 数据 结构 将 要 组 成 链表 时 ， 它 的 成 员 中 必 会 一 个 struct list head 成 员 。 

e 由 链表 节点 到 数据 项 变量 

我 们 知道 ，Linux 链表 中 仅 保 存 了 数据 项 结构 中 list head 成 员 变 量 的 地 址 ， 那 么 我 们 如 何 通过 这 个 
list head 成 员 访问 到 它 的 所 有 者 呢 ? Linux 为 此 提供 了 一 个 list entry(ptr, type, member) 宏 ， 其 中 ptr 是 指 
向 该 数据 中 list head 成 员 的 指针 , type 是 数据 项 的 类 型 , member 则 是 数据 项 类 型 , 例如 , 有 一 个 由 proto{ } 
组 成 的 链表 ， 名 字 叫 proto_list， 而 每 个 proto{} 结 构 中 的 list_head{f]} 成 员 名 字 叫 node。 我 们 要 访问 这 个 链 
表 中 第 一 个 节点 ， 则 如 此 调用 : 


















































































































































list_entry (proto_list->next, struct proto, node); 


list entry 的 使 用 相当 简单 ， 相 比 之 下 ， 它 的 实现 则 有 一 些 难 懂 ， 先 告诉 大 家 的 是 ，Linux 内 核 用 的 
GCC 编译 器 使 用 了 一 些 比较 新 的 关键 字 ， 比 如 typeof， 所 以 下 面 的 代码 是 无 法 在 VC 等 编译 器 上 通过 : 











LI 


























#define list entry(ptr, type, member) container of(ptr, type, member) 


#define container of(ptr, type, member) ({ N 
const typeof( ((type *)0)->member ) * mptr = (ptr); \ 
(type *)( (char *) mptr - offsetof(type,member) );}) 


Rar 


#define offsetof (TYPE, MEMBER) ((size t) &((TYPE *)0)-»MEMBER 




















正 是 利用 了 typeof， 内 核 中 许多 技巧 得 以 实现 ,在 这 里 ， 先 求 得 结构 成 员 在 与 结构 中 的 偏 移 量 ， 然 














后 根据 成 员 变 量 的 地 址 反 过 来 得 出 属 主 结构 变量 的 地 址 。 

要 记 住 的 是 container_of() 和 offsetof() 并 不 仅 用 于 链表 操作 ， 这 里 最 有 趣 的 地 方 是 ((type 
*)0)>member, ‘EF 0 地 址 强制 "转换 "为 type 结构 的 指针 ， 再 访问 到 type 结构 中 的 member 成 员 。 

对 于 给 定 一 个 结构 ,offsetof(type,member) 是 一 个 常量 , list_entryO0 正 是 利用 这 个 不 变 的 偏 移 量 来 求 得 
链表 数据 项 的 变量 地 址 。 
€ hlist 
下 图 是 关于 Linux 内 核 中 list 和 hlist 的 区 别 ，hlist 是 hash list 的 简称 ， 即 用 拉链 法 实现 的 hash 数据 
结构 。 它 由 2 部 分 组 成 : hash 数组 和 冲突 链 。 当 节点 第 一 次 要 插入 hash 表 的 时 候 ， 它 必定 是 先 插入 hash 
数组 中 ， 而 以 后 要 插入 的 节点 如 果 发 生 了 冲突 ， 则 可 以 挂 在 数组 后 面 ， 形 成 一 条 链表 。 当 然 也 可 以 插入 
数组 ， 原 先 在 数组 中 的 节点 被 挤 出 来 形成 一 条 链表 。 两 者 的 区 别 如 下 图 : 
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© a 









































list head 
head[0] po d ww 
; head[1] 
hlist head[21 a 
head[3] S 
E N 
head[n-1] | + ~- ”hash 链 
hash 表 


图 表 1-4 list 和 hlist 的 区 别 








也 许 Linux 链表 设计 者 认为 双 头 (next、prev) 的 双 链 表 对 于 HASH 表 来 说 "过 
































计 了 一 套用 于 HASH 表 应 用 的 hlist 数据 结构 单 指针 表 头 双 循 环 链表 ， 








于 浪费 " 
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因而 为 行 设 











struct hlist head { 
ove le te lS Ol ef TSE 


he 


struct hlist_node { 
struct hlist_node *next, 


he 


**pprev; 





代码 段 1-1 hlist head 的 定义 























struct hlist_head 仅仅 用 了 一 个 指针 ， 占 4 个 字 节 ， 
节 乘 以 数据 大 小 的 空间 。 从 上 图 可 以 看 出 ，hlist 的 表 头 仅 有 



































表 ， 而 将 冲突 节点 链表 称 为 hash 链 。 





hash 


























不 太 懂 HASH 表 算法 的 读者 还 是 不 要 往 下 看 了 , Linux 内 核 特别 是 网 络 部 分 ! 
组 织 的 ， 为 了 节省 您 宝贵 


1.2.2 ”图片 风格 演示 















































很 多 地 方 是 用 hash 表 
的 时 间 ， 您 要 么 把 HASH 算法 复习 一 下 ， 要 么 把 这 篇 文档 删除 吧 。 




















因为 hash 数组 往往 相当 大 ， 这 样 可 以 节省 4 个 字 
个 指向 首 节点 的 指针 ， 而 没有 指向 尾 节点 
的 指针 ， 这 样 在 可 能 是 海量 的 HASH 表 中 存储 的 表 头 就 能 减少 一 半 的 空间 消耗 。 我 习惯 上 称 hash 数组 为 





本 书 中 所 有 图 示 都 是 笔者 画 出 ， 有 一 些 独特 的 表示 方式 需要 给 读者 做 实例 。 在 每 一 章 / 节 的 开头 ， 笔 




















者 提供 





























了 关于 此 章 的 函数 调用 树 。 这 种 调用 树 在 代码 分 析 过 程 中 经 常 可 以 看 到 ， 它 简 自 























RA. MEME 


体现 了 开发 人 员 的 基本 思路 。 对 于 简单 的 代码 流程 可 以 快速 跨 过 。 而 对 关键 的 代码 段 进行 分 析 ， 指 出 其 








算法 ， 给 出 注释 。 

这 样 两 种 粗细 结合 的 代码 分 析 过 程 在 笔者 从 事 软件 开 
帮助 ， 尽 早 理解 协议 栈 工 作 流 程 。 

e 函数 调用 树 
由 于 本 书 中 不 可 能 把 内 核 ， 
比如 下 面 代码 : 























发 过 程 ! 






















































































所 有 




















代码 抄 过 来 ， 所 以 对 比较 简单 的 代码 的 分 析 采 用 了 调 上 























起 了 很 大 的 帮助 ， 相 信也 能 给 读者 以 





] 树 的 方式 。 





B_Function( ) 
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A_Function 








C_Function( ); 





} 
A Function( ) 
{ 











B_Function( ); 
D_Function( ); 
if (err) 

E Function(): 





对 于 函数 调用 ， 我 们 采用 第 
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处 理 分 支 ， 那 么 工作 1 





























B_Function 
































C_Function 
































D_Function 























A_Function 
(89 
BF i ti 9 bad 
Ek iru : C_Function 
Y 
D Function 








E function" 248 *E JE. 


图 表 1-5 8 


方法 表示 。 如 果 采 用 第 @O 种 比较 传统 的 方式 ， 那 么 C_Function 将 放 
FEA RUE? 而 且 ， 在 大 部 分 代码 中 ， 有 很 多 对 错误 进行 判断 的 代码 分 文 ， 如 果 我 们 要 完全 画 出 这 些 错误 
而 且 是 没有 必要 的 ， 最 关键 的 





量 是 非 第 巨大 的 ， 


函数 调 


























本 人 的 











1.2.3 ”本 书 的 组 织 


网 络 协议 栈 的 内 容 实 际 上 包括 了 除 TCP/IP 在 内 的 协议 ， 


书 中 还 有 一 些 序列 图 ， 我 想 大 家 应 该 不 会 








开发 经 验 告诉 我 ， 传 统 的 表示 方法 是 不 适合 大 范 
产生 理解 上 的 








用 树 的 演示 











困难 吧 。 





围 、 大 跨 步 了 解 一 个 原 有 系统 








是 影响 读者 理解 主要 的 脉络 。 所 以 
结构 的 。 

















当前 基 其 














T TCP/IP 的 协议 不 下 百 种 ， 这 从 一 





个 方面 说 明了 TCP/IP 网 络 强大 的 影响 力 ， 也 给 笔者 带 来 了 分 析 的 难度 : 要 不 要 分 析 诸 如 SLIP, PPP, SIP, 





OSPF 
解 有 什么 影响 ? 
出 于 能 力 和 时 间 关 系 ， 


或 协议 的 具体 实现 。 本 书 侧 习 
KEM 
































据 流 为 根本 ， 作 为 理解 协议 栈 











Ve RE 

















的 主线 ， 再 辅 




















栈 有 清晰 的 理解 。 
本 书 的 组 织 如 下 : 首先 介 
的 初始 化 ， 为 分 析 、 理 解数 据 流 






































A 
A o 


从 一 定 角度 看 ，Linux 本 身 就 是 网 络 的 代名词 。 它 的 
息 、 程 序 代码 完成 的 。Linux 从 1991 年 出 
有 独 建立 了 net 目录 , 足以 看 出 网 络 在 Linux 


PEA 








在 互联 网 和 新 闻 组 上 交流 信息 
至 关 重 要 的 部 分 
中 是 和 文件 系统 一 检 

















下 面 是 Linux 内 核 源 代码 的 





Linux-2.6.18 
|_arch 
| configs 
| documentation 
| Drivers 


| 

D st 
| fs 

| include 
L init 
|_ipe 

| kernel 


, 代码 间 关系 相当 复杂 
和 重要。 当然 ， 网 络 相 关 的 代码 在 drivers/net 4 





绍 操作 系统 的 部 分 基本 知识 ， 
向 打下 基础 。 接 下 来 ，1 
E, LANMA UDP 和 TCP 内 部 的 实现 ， 最 后 ， 引 入 一 些 比 较 流行 的 话题 ， 比 如 流 控 、VLAN、 二 层 协议 





等 协议 ? 要 怎样 才能 将 这 些 协 议 从 TCP/IP 代码 中 剥离 ? 如 果 不 介 


笔者 决定 舍弃 大 部 分 协议 ， 不 在 本 书 中 介绍 关 
重 介绍 的 是 Linux 中 TCP/IP 网 络 协议 栈 的 实现 ， 将 
LENHA Linux 协议 栈 的 TCP/IP 协议 分 析 。 在 阅读 本 书 时 , 希望 读者 以 协议 层次 之 
以 函数 调用 序列 分 析 ， 相 信和 





然后 分 析 其 局 动 过 程 ， 














fj AME, ^ 











介绍 配置 ， 分 析 IP 路 





开发 和 发 














。 从 在 内 核 代 码 


录 树 : 





RA aA 


























绍 这 些 协议 代码 会 对 协议 栈 的 理 








于 驱动 程序 、 包 封装 的 协议 、 
讲解 各 种 机 制 的 实现 。 

A) FE BK 

E 在 阅读 本 书后 对 协议 
































协议 栈 
i ANB 


接着 重点 分 析 | 
的 存 









































展 都 是 通过 程序 员 在 网 络 上 ， 尤 其 是 





现 到 现在 ， 网 络 方面 的 代码 一 直 是 














部 分 。 
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| lib 
|. mm 
| net 

| 1802 

| [802 

| [bridge 

| |_core 

| |_ethernet 
| Lipv4 

|  Lipvé 

| [Ic 

| |_netlink 

| 

| 

| 


|_scripts 
|_security 
|. sound 
|_usr 


于 网 络 协议 栈 涉及 的 东西 实在 太 多 ， 我 上 只 能 挑 一 些 最 


























还 没有 


" 


i. 


那么 广 的 阅历 ， 也 没有 那么 多 时 间 全 部 写 就 。 
把 此 书 定 个 版 本 号 。 目 前 就 是 0.1 版 ， 当 发 布 到 网 上 时 ， 
错误 形成 0.2。 而 到 当 发 布 0.2 之 后 ， 



























































> 
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NU 
qu 
oo 








我 打算 这 样 安排 ， 


本 人 将 加 入 WLAN, SCTP 4i 3j 








常见 的 内 容 去 说 ， 








本 书 将 念 




















f 的 内 容 ， 





面面俱到 ， 





不 能 
照 软件 升 








当然 ， 我 得 有 时 间 ， 





因为 我 
级 出 版 本 的 方 
内 容 上 基本 上 不 会 有 太 多 变化 ， 主 要 是 改正 
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第 2 章 系统 初始 化 


KAZE Linux 发 行 版 的 人 ， 必 先 想 编译 一 次 内 核 源 代码 以 图 一 快 。 A 然后 查看 
源码 ， 然 后 修改 ， 那 么 我 现在 先 给 一 个 初步 的 关于 Linux 内 核 源 代码 编译 ， 裁 减 的 介 因为 对 于 研究 
内 核 源 代码 ， 不 了 解 其 编译 的 内 部 机 制 ， 就 不 可 能 精通 其 代码 执行 的 起 源 。 
废话 少 说 ， 来 看 看 如 何 编译 源 代码 。 
首先 ， 进 入 Linux 源码 目录 ， 键 入 make menuconfig， 会 出 现 一 个 类 似 菜单 的 界面 让 用 户 选择 是 否 裁 
掉 或 加 进 某 模块 。 我 们 关心 的 网 络 模块 界面 如 下 图 : 
































这 





















































































































































Networking options 
Arrow keys navigate the menu. <Enter> selects submenus --->. 
Highlighted letters are hotkeys. Pressing <Y> includes, <N> excludes, 
«M» modularizes features. Press <Esc><Esc> to exit, <?> for Help, </> 
for Search. Legend: [x] built-in [ 1 excluded «M» module < > 


[ ] Network packet debugging 
[x] Packet socket: mmapped I0 
<*> Unix domain sockets 
<*> IPsec user configuration interface 
PF_KEY sockets 
TCP/IP networking 
IP: multicasting 
IP: advanced router 
Choose IP: FIB lookup algorithm (choose FIB_HASH if unsure) € 
IP: policy routing 


«S < Exit > < Help > 





图 表 2-1Linux 内 核 编译 一 一 网 络 选项 部 分 


在 这 幅 图 中 ， 有 的 选项 前 是 “*”, 有 的 是 “M”， 有 的 是 空 ， 这 表示 什么 呢 ?” 即 当选 择 “*” 的 时 候 ， 
模块 被 编译 进 内 核 ， 在 系统 启动 的 时 候 ， 被 主 调 函 数 调用 执行 ， 而 如 果 选 择 “M2” 的 时 候 ， 表 示 被 编译 
成 一 个 .ko 文件 ， 放 在 某 个 目录 下 ， 系 统 局 动 的 时 候 依靠 脚本 把 这 些 目标 文件 装 入 内 核 。 为 什么 要 有 这 样 
的 区 分 ?是 因为 这 两 种 编译 方式 对 决定 了 内 核 的 大 小 ， 也 决定 了 内 核 模块 被 初始 化 的 过 程 ， 这 些 内 容 在 
他 书 中 有 介绍 ， 下 面 的 章节 还 会 提 及 。 不 过 ， 我 们 还 是 先 来 研究 系统 启动 吧 ! 


2.1 系统 初始 化 流程 简介 


Linux 系统 的 启动 ， 指 的 是 从 系统 加 电 后 直至 系统 控 秆 
阶段 。 与 这 部 分 动作 密切 相关 的 代码 主要 是 : 

e 四 个 汇编 程序 : bootsect.S setup.S head.S entry.S 

@ init 目录 下 的 main.c 文件 

本 节 介 绍 的 程序 流程 不 多 ， 这 是 由 于 汇编 代码 在 协议 栈 中 没有 太 多 关系 ， 我 们 可 以 直接 分 析 C 语言 
编写 的 初始 化 代码 。 另 一 方面 ， 研 究 汇编 不 是 我 的 特长 ， 而 且 也 没有 必要 。 

下 面 看 init/main.c 中 的 start. kernel 函数 的 分 析 〈 这 是 2.6.5 内 核 的 启动 流程 图 ， 自 从 依据 此 版 本 画 出 
Xl: 
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台 显 示 “login:” 登 录 提 示 符 为 止 的 系统 运行 
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-rO 




















































































































































































































































































































































































































































































































start_kernel 
lock_kernel softirq_init 
‘© 
page_address_init time_init 
setup_arch console_init 
buffer_init 
setup_per_cpu_areas profile_init = 
unnamed dev init 
smp. prepare boot cpu local irg enable 
build all zonelists mem init = 
vfs_caches_init 
page_alloc_init kmem_cache_init - — 
radix_tree_init 
parse_args calibrate_delay ; = 
signals_init 
sort_main_extable pidmap_init - =- 
page_writeback_init 
trap_init pgtable_cache_init — 
proc root init 
rcu init efi enter virtual mode 
check bugs 
init IRQ fork init — 
init idle 
pidhash init proc caches init — 
rest init 
sched init e 








e 


图 表 2-2 系 统 启动 函数 序列 图 
在 系统 启动 过 程 中 ， 我 们 要 关注 这 几 个 方面 : 
1. 中 断 系统 及 调度 系统 
2. 文件 系统 的 初始 化 
3. 设备 管理 系统 的 初始 化 
4. 网 络 协议 的 初始 化 
这 4 点 分 别 是 本 章 的 4 个 小 节 ， 但 在 介绍 这 4 个 方面 的 内 容 之 前 必须 提前 介绍 关于 ELF 文件 格式 的 
基本 常识 。 最 后 一 节 会 讲解 网 络 协议 栈 本 身 的 初始 化 。 为 什么 要 做 这 样 的 安排 ? 因为 网 络 系统 本 身 关 系 
到 设备 、 文 件 系统 、 任 务 调 度 等 方面 ， 如 果 这 些 具 体 的 问题 没有 搞 清楚 ， 那 么 理解 协议 栈 本 身 是 比较 轩 
难 的 。 而 关于 ELF 文件 格式 的 内 容 则 是 更 加 重要 ， 因 为 仅仅 理解 代码 并 不 困难 ， 而 要 理解 编译 器 在 生成 
内 核 的 过 程 中 做 了 什么 事 是 区 别 内 核 与 普通 可 执行 文件 的 关键 。 


不 过 ， 在 上 图 的 函数 中 没有 发 现 与 网 络 相 关 的 ， 那 么 它 隐藏 在 哪 呢 ? 再 看 看 rest init 函数 吧 。 下 面 
是 分 析 init/main.c 中 rest_init 函数 : 











































































































VEL $25 
= 


































































































































































































Linux2.6 协议 栈 源 代码 分 析 








rest_init 

















kernel_thread ( init ) 














unlock_kernel 




















cpu_idle 在 


include/linux/ 
“eer sched.h 中 




















while ( Ineed_resched) 


























| default idle M ie 
DÀ arch/i386/kernel/ 


process.c 中 


| schedule Pse 
在 kernel/schedule.c 中 


图 表 2-3rest_init 函数 调用 树 


在 此 函数 中 ， 还 是 没 看 到 关于 网 络 初 始 化 相关 代码 ， 但 你 看 到 那个 kernel thread 函数 了 吗 ? 那个 函 
数 创建 一 个 内 核 线程 ， 原 型 如 下 ; 
int kernel_thread(int (*fn)(void *), void * arg, unsigned long flags) 

此 函数 定义 在 arch/i386/kernel/process.c 中 ， 它 利用 linux/i386 的 do. fork 函数 创建 一 个 新 的 内 核 态 线 
FE, Linux 的 内 核 线程 是 没有 虚拟 存储 空 | 间 的 进程 ， 它们 运行 在 内 核 中 ， 直 接 使 用 物理 地 址 空间 。 

在 这 里 ，kernel thread 创建 的 新 的 内 核 线程 是 init， 然 后 返回 ， 执行 unlock kernel Cj start kernel 
中 的 lock kernel 对 应 )， 接 着 执行 cpu_idle0， 这 实际 是 执行 初始 化 主线 程 的 归宿 ， 它 观察 自己 是 否 处 于 
TIF_NEED_RESCHE ^t need resched 实现 ， 如 果 不 是 ， 就 让 自己 睡眠 ， 和 否则 完成 schedule O 函数 。 
TIF 即 Thread Information Flag 的 意思 。 
现在 注意 力 转 到 init 函数 。Linux 内 核 代码 中 有 多 个 模块 定义 了 init 函数 ， 这 是 因为 许多 设备 驱动 和 
实现 了 名 字 叫 做 init 的 函数 ， 大 多 数 都 是 我 们 不 关心 的 内 容 ， 所 以 必须 找到 正确 的 那个 。 众 里 
度 ， 默 然 回 首 ， 它 居然 就 在 iniVymain.c 中 。 
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init 











lock_kernel 














smp_prepare_cpus 














do pre smp initcalls 











smp init 























init 线程 好 像 调 








了 








do. initcalls 这 个 函数 ， 在 此 函数 定义 的 c 文件 


是 如 下 定义 和 的 : 











书 了 许多 函数 ， 但 终了 


sock init ()， 但 是 我 们 跟踪 进 这 个 函数 ， 发 现 它 





do_basic_setup 











driver_init 











sock_init 











init_workqueues 











要 重点 关注 
这 个 函数 





do_initcalls 











populate rootfs 








SyS access 








free initmem 








unlock kernel 








Sys open 











执行 若干 脚本 











打开 /dev/console , #3 
就 是 打开 交互 式 窗口 


脚本 里 包含 了 加 载 部 分 驱动 程序 
和 启动 一 些 基 础 服务 的 信息 


图 表 2-4init 函数 调用 关系 树 





























Pg 
qut 


中 ， 有 这 样 





NU 





























FA 482  initcall start 和 








FHE do basic setup 中 看 到 了 关于 和 网 络 有 关系 的 初始 化 





数 ， 它 们 在 哪 ? 我 们 将 注意 力 移 到 


只 是 为 网 络 创建 了 执行 环境 ， 并 为 协议 栈 申 请 了 
内 存 空 间 。 我 们 将 在 “ 度 狠 系 詹 和 女 共 从 ”一 节 详 细 分 析 此 函数 。 但 是 协议 栈 本 喘 在 哪 被 初始 化 呢 ? 
在 这 样 的 函数 调用 树 中 找 不 到 直接 关于 网 络 的 初始 化 函 








initcall end， 它 们 





= 
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extern initcall t _ initcall start, __initcall_end; 


{ 


i 
25 
SS. Grawe void — init do-initcalbstvoid) 
4 
5 iigshie@ellil 35 werd 

6 


. int count = preempt count(); 
Ak initcall start RAFEH, ABE initcall end 这 个 变量 















































Tz Rory (call = & . initcall start; call « &- initeall end; call4t) 
Se A 
9. char *msg; 
ye E ET 
调用 初始 化 函数 ， 我 们 目前 是 无 法 从 代码 上 直接 看 到 call 是 什么 函数 
iLil, . ("eed ; 
12. 
LS msg = NULL; 
T4500 
35. } 
16 


17. /* Make sure there is no pending stuff from the initcall sequence */ 
18. flush scheduled work(); 
i9. j 





代码 段 2-1do initcalls 函数 


我 们 用 C 源 码 分 析 工 具 没 有 观察 到 _initcall_start，_initcall_end 是 在 哪个 C 文 件 和 H 文 件 中 被 定义 的 。 难 
道 没有 定义 它们 编译 器 就 让 这 种 “错误 ”蒙混 过 关 了 吗 ? 我 们 注意 到 call 变 量 是 initcall_t 类 型 的 ， 这 是 一 
种 什么 样 的 类 型 呢 ?” 只 好 到 跟 initcall_t 相 关 的 文件 中 去 找 。 于 是 在 include/linux 目 录 下 发 现 init.h 文 件 定 义 
了 这 个 类 型 变量 ， 下 面 章 节 我 们 会 介绍 具体 的 定义 ， 为 了 介绍 为 什么 要 定义 这 样 一 种 类 型 ， 那 我 们 必须 
得 知道 一 个 不 得 不 说 的 话题 ，ELF 文 件 格 式 。 下 面 的 章节 详细 讲解 了 关于 这 方面 的 知识 ， 对 于 了 解 操 作 
系统 工作 也 是 很 好 的 教材 。 


2.2 ”内 核 文件 解读 
为 了 解决 initcall_t 到 底 是 什么 变量 类 型 则 必须 提 及 C 语言 中 一 个 比较 少见 的 内 容 一 一 可 执行 文件 格 
式 ， 只 有 了 解 了 这 种 文件 格式 才能 具体 知道 initcall t 的 意义 。 下 面 我 们 就 开始 了 。 


2.2.1 ELF 文件 格式 
ELF 是 *nix 系统 上 可 执行 文件 的 标准 格式 ， 它 取代 了 out 格式 的 可 执行 文件 ， 原 因 在 于 它 的 可 扩 
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RH 





性 。 



































ELF 格式 的 可 执行 文件 可 有 多 个 sectione DWARF (Debugging With Attribute Record Format) 是 经 常 
倍 到 的 名 词 ， 它 在 ELF 格式 的 可 执行 文件 中 。 

ELF 文 件 有 三 种 不 同 的 形式 : 
> Relocatable: 由 编译 器 和 汇编 器 生成 ， 由 linker 处 理 它 。 
> Executable: 所 有 的 重 定 位 和 符号 解析 都 完 成 了 ， 也 许 共享 库 的 符号 要 在 运行 时 刻 解 析 。 
> Shared Object: 包含 linker 需要 的 符号 信息 和 运行 时 刻 所 需 的 代码 。 

ELF 文件 有 双重 性 质 : 一 方面 ， 编 译 器 、 汇 编 器 、 连 接 器 都 把 它 看 作 是 逻辑 段 (sections) 的 集合 ， 
另 一 方面 loader 把 它 看 作 段 (segments) HRA. Section 是 给 linker 做 进一步 处 理 的 ， 而 segments 是 被 
映射 到 内 存 中 去 的 。( 中 文 里 面 section 可 以 叫做 节 也 可 以 叫 段 ， 而 segment 亦 然 ， 为 避免 歧义 ， 这 里 坚持 
用 英文 表示 ) 一 个 segment 可 以 由 几 个 sections 组 成 。 为 了 定位 不 同 segment/section， 可 执行 文件 用 一 个 
table 来 记录 各 个 segment/section 的 位 置 和 描述 。Relocatable 有 section table, Executable 有 program header 
table。 而 Shared Object 两 者 都 有 。 
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编译 器 从 这 个 方向 解释 Loader 从 这 个 方向 解释 


Linkable Sections ELF Header ee 


Program header 
Table 











Describe segments 

















Sections || Segments 











Section header | | ^" 
Describe section " Table 

















图 表 2-5ELF 文件 格式 


上 图 演示 了 从 不 同 的 角度 来 解释 segment 和 section 的 不 同 。 
当 as 生成 一 个 目标 文件 时 , 它 假设 程序 段 是 从 地 址 0 开始 ,ld 则 把 最 后 的 地 址 赋 给 这 个 程序 段 .以 至 于 
不 同 的 程序 段 不 会 相互 复 盖 。]ld 把 程序 移动 到 各 自 的 运行 时 地 址 ,指定 section 的 运行 时 地 址 叫 重 定位 
(relocation). 

as 输出 的 目标 文件 至 上 有 三 个 section, 任 何 一 个 都 有 可 能 为 空 ,它们 是 text,data,bss 段 。 你 可 以 不 写 诸 
如 .text 或 .data 段 ,但 目标 文件 中 还 是 存在 这 些 段 ,只 不 过 d). di 目标 文件 中 段 是 如 下 排列 : 


Address0 e > 






















































































.text 





.data 





.bss 











图 表 2-6 普 通 的 ELF 段 排列 
为 了 让 1d 能 正确 重 定位 各 段 ，as 生成 一 些 重 定 位 所 需 的 信息 


实际 上 as 用 的 每 一 个 地 址 都 是 以 这 样 的 形式 : (section)+(offset into section) 表 示 ，1d 把 所 有 相同 的 
section 放 到 连续 的 地 址 里 。 你 还 可 以 用 subsections 把 一 个 大 的 section 分 成 多 个 小 的 section。 可 以 用 标号 
来 区 分 ， 这 里 就 不 细 说 了 。 
普通 情况 下 1d 处理 四 种 段 : 
named section: 

text section 

data section 

这 两 个 段 放 着 你 的 程序 ， 它 们 是 分 开 的 但 是 却 是 相等 的 段 。 只 是 在 运行 的 时 刻 ，text 段 不 

能 被 改变 。 

bss section 

absolute section 

这 个 段 的 0 地址 总 是 被 重 定位 到 运行 地 址 0 
undefined section 

用 来 放置 不 在 前 面 儿 个 段 里 的 数据 。 

对 于 一 个 在 text. data, bss 中 的 符号 而 言 ， 它 的 值 就 是 从 段 首 到 和 它 的 偏 移 ， 于 是 ， 当 ld 在 连接 各 段 
时 就 改变 了 label 的 值 。 
对 于 没有 定义 (undefined〉 的 值 ，1d 尽量 从 外 部 其 他 文件 引入 并 确定 其 值 。 
不 同 的 sections 的 含义 (大 家 都 知道 的 我 就 不 说 了 ): 
@ dynamic: 该 section 保存 着 动态 连接 的 信息 
€  dtnstr: 保存 动态 连接 时 需要 的 字符 串 。 
* 
* 












































































































































































































































.dynsym: 保存 动态 符号 表 如 “symbol table” MFR. 
interp: 保存 程序 的 解释 程序 (interperteD) 的 路 径 。 
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*99 


却 一 


知 
Hf 





出 
结 


时 





中 


一 个 section 可 以 是 标记 为 loadable， 意 味 着 输 
LAMY allocatable, 表示 这 块 区 域 放 在 内 存 的 某 个 地 方 ， 但 
是 被 初始 化 为 0)， 一 个 既 不 是 loadable 也 不 是 allocatable 的 section 一 般 是 包含 一 堆 调试 信息 。 
每 一 个 loadable 和 allocatable 的 section 有 两 个 地 址 


Section 可 


行 


址 是 相 
技术 通常 用 来 初始 化 基于 ROM 系统 的 全 
你 可 以 用 dumpobj -h 去 查看 目标 文件 的 section 信息 。 每 个 目标 文件 有 
且 每 个 有 定 
看 。 





Linux2 









































line: 包含 编辑 字符 的 行 数 信 息 ， 它 
Tel<name> 和 .rela<name>: 保存 重 定 位 的 信息 


.6 协议 栈 源 代码 分 析 


述 源 代码 与 机 器 代码 之 间 的 对 应 关系 。 



































.rodata 和 .rodatal: 保存 只 读数 据 ， 在 进程 妈 
前 级 是 点 (.) 的 section 名 是 系统 保留 的 。 


2.2.2 Link Scripts 知识 
我 们 通常 有 
































像 中 构造 不 可 写 的 段 。 
































定 是 运行 在 内 核 空 间 ? 如 果 我 们 把 目 
道 为 什么 
在 一 起 的 任务 ， 而 且 它 还 # 

链接 器 (Linker) 其 实 有 
文件 中 ， 并 控制 输出 文件 的 内 存 排列 。 如 果 你 





FRE RES BREA 





























光 仅仅 上 在 C 文件 或 
会 这 样 。 其 实 我 们 经 常 忽视 了 链接 器 的 作用 。 


自己 的 一 套 语言 规范 ， 其 目 
从 来 没有 看 到 过 1d script, 











h 文件 甚至 



























































果 ， 那 就 是 dd seript。 只 是 它 是 内 置 在 链接 器 1! 








而 有 














应 用 程序 
我 们 已 经 知道 每 一 个 目标 文件 有 一 
叫 output section。 每 个 section 有 名 字 和 大 小 。 
出 




































































表 ， 在 输入 文件 中 ， 





ld 就 是 使 用 这 个 缺 省 的 script 224 
PP obj， 所 以 如 果 是 用 缺 省 的 ld script 生成 内 核 ， 那 么 它 肯 定 也 只 能 


个 sections 的 列 


跑 在 用 户 空 
是 input section， 在 输出 文件 








间 。 


个 疑问 ， 为 什么 我 们 编 出 来 的 代码 肯定 是 在 用 户 地 址 空间 运行 ， 而 内 核 编 出 来 的 代码 
Makefile， 估 计 想 破 脑袋 
不 能 简单 地 认为 链接 器 仅仅 完成 将 各 obj 文件 
存 的 真正 地 址 ， 没 错 ， 是 装 入 ! 

的 是 描述 输入 文件 中 的 sections 是 如 何 映射 到 输 
那么 请 用 Id -verbose 查看 输出 
E 成 输出 我 们 平 


BA 


大 多 数 section 有 相关 的 数据 块 ， 就 是 section contents. 





文件 在 运行 时 可 

















以 把 这 一 section 装 入 内 存 。 





没有 内 容 的 





没有 什么 特殊 的 东西 放 在 里 面 (一 般 都 


。 第 一 个 是 VMA， 即 虚 存 地 址 。 这 是 输出 文件 运 


时 的 地 址 。 第 二 个 是 LMA， 即 装 入 内 存 地 址 。 这 是 section 被 装 入 的 地 址 。 在 多 数 情 况 下 ， 这 两 个 地 


同 的 。 他 们 不 同 的 例子 是 : 当 数 据 section 


局 量 )。 






































义 的 符号 有 一 个 地 址 及 其 他 信息 。 


























有 一 个 SECTIONS £i 





最 简单 的 script 只 
例子 : 
SECTIONS 
{ 
.=0x10000; RIERA Fkh, 
.text SIZEOF_HEADERS: { 
* C init) 
*(.text) 
*( fini) 
} 
.20x8000000; 皮 数 据 被 装 入 到 此 地 址 */ 
.data: ( *(.data)) 
.bss: {*(.bss)} 
) 
在 上 例 中 





3 行 的 ,是 一 个 特殊 符号 ， 











,第 


开始 时 它 等 于 0。 


Fl 
AE 





€ get 











个 通配符 ,匹配 所 有 的 文件 ， 表 达 


段 包 含 所 有 输入 文件 的 .init 和 .text 及 .fini。 

















SE 


在 linker 放置 ".data" 后 ， 定 位 计数 器 的 值 等 于 





被 装 入 ROM， 当 程序 开 








始 执行 时 被 复 于 











Ay O, SE 





| 到 RAM (这 个 














n> 





tdi EH SCPE ES VIL ZF ED 





















































放 在 .data 


2 后 。 注意 : 
程序 中 执行 的 第 一 











条 指 








ide deo 口 点 : 




















。 在 命令 行 中 输入 -e entry 





linker 可 能 会 在 .data 和 .bss 段 之 间 划 出 一 个 


F 0x8000000 加 上 ".data" 的 大 小 。 
gap。 





" 在 linker script 文件 中 指定 ENTRY(symbol) 














3。 如 果 定 义 了 start, M) start 的 值 











就 是 入 口 点 


点 
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符号 表 。 每 个 符号 
你 可 以 用 nm 查看 符号 表 信 息 , 也 可 以 用 objdump -t 命令 查 


然后 linker 





令 叫 entry point， 可 以 用 ENTRY 指定 入 口 点 。 如 ENTRY(symbol)。 


个 名 字 ， 





用 来 做 定位 计数 器 。 它 根据 输出 段 的 大 小 增长 。 在 SECTIONS 
大 式 "*(.text)" 表 示 所 有 输入 文件 的 ".text" 段 。 输 出 文件 的 .text 


会 把 .bss EX 


linker 有 





多 数 情况 ， 输 入 文件 里 的 公 
s {*(.bss) *(COMMON)} 


地 址 开始 执行 。 


默认 使 用 程序 


Mes 


fF, 


4. .text 的 第 
5。 地 址 0 


BOXE 











在 一 些 目标 文件 里 ， 公 








公共 符号 不 属于 某 
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.b 


n 








输出 段 忆 


属性 


linker 一 般 在 input section 的 基础 上 设置 
可 以 使 用 AT 命令 人 
个 简单 的 方法 把 不 同 




















履 盖 命 令 提 供 了 一 














PROVIDE 输出 符号 
SECTIONS 
{ 


.text : 
{ 
*(.text) 
_etext = .; 
PROVIDE(etext = .); 
} 





} 





如 果 程 序 里 定义 了 _etext， 则 linker 会 报错 : 
EE 的 etext 定义 ;如果 程序 没有 定义 etext 但 

















符号 被 放 在 输出 文件 的 .bss Bi 


:个 特别 的 段 ，linker 认为 它们 属于 一 个 叫 COMMON HE, K 

















, 如 

















output section 的 








以 便 让 linker ff 
































的 section 装 入 单 














E 在 解析 过 程 ! 























2.2.3 Linux 内 核 镜像 研究 


下 面 我 们 就 拿 Linux 内 核 源 代码 作为 复习 EA Emir. ^ 
它 不 仅 定 义 了 initcall_t 类 型 变量 ， 


用 到 。 用 法 是 PROVIDE(symbol = express)。 


多 个 _etext 的 定义 。 但 
却 用 到 了 etext， 则 linker 使 用 link script 中 的 定 








内 存 镜 像 中 ， 但 在 执行 的 时 候 是 从 同一 的 





例如 




















如 果 程 序 定义 了 etext， 则 编译 器 





























还 定义 了 一 些 常规 C 








可 而 





include/linux 目录 下 这 么 一 个 inith X 











E 
语言 编程 中 未 见 过 得 类 型 : 





























用 法 : 
对 于 函数 ， 应 该 在 函 




















数 名 之 前 加 - 


^^. init, WF: 



















































































































































































ils J" graria volel — tmir duse (alin xx, Umm wj) 
2s EET 
SE d extern b vap Z = x *?* ye 
4. Ay 

如 果 函 数 在 其 他 地 方 有 原型 ， 那 么 你 可 以 在 括号 和 分 号 之 间 加 _ init， 如 下 : 
55 * extern int aeea foobar Cavea ae int, int) — init; 
6r 5 

对 于 初始 化 的 数据 ， 应 该 在 变量 和 等 号 2 间 加 一 个 一 initdata， WP: 
gs * static int init variable X initdata = 0; 
8 . tot Cloyeue inu Jiexerod[ | . abesset = ( O32, OWS3G, soc 

记 住 不 要 在 文件 范围 以 外 初始 化 数据 , 比如 在 函数 中 ， 否 则 gcc A ei lnc bss 段 中 而 不 是 init 段 中 。 
9s 

而 且 要 注意 : 这 些 数据 不 能 是 const 类 型 
dg. 7 
Ti 
12. /* 这 里 要 碰 到 一 个 _ attribute KEF, XE UR am NCC ER RRE. ERE, wM section 

共同 指示 凡是 被 它们 修饰 的 函数 或 变量 应 该 放 在 特殊 的 section 中 ,不 能 任 由 编译 器 自己 决定 这 些 函数 放 在 哪 */ 
13. #define | init -oe Cr Seeon — int. pear jy) 
14. #define __initdata |. attribute | ((__section__ (".init.data") ) ) 
15. #define __exitdata _ attribute | ((__section__(".exit.data") ) ) 
16. #define exit_call attribute used | __attribute__ ((__section__ 
(".exitcall.exit"))) 
Ts 
18. #define _ sched . attribute .(( section  (".sched.text"))) 
i9 
20. #ifdef MODULE 
21 #define _ exit . attribute | ((__section__(".exit.text"))) 
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#else 
#define _ exit . attribute used | attribute  (( section  (".exit.text"))) 
#endif 


/* For assembly routines */ 


#define _ INIT .Section ems SC lw Weyl 
#define _ FINIT .previous 
#define _ INITDATA .section Tamie datat, etw 





ASAE M__ASSEMBLY__K, MUA T II S 
#ifndef _ ASSEMBLY 
这 就 是 前 面 我 们 提 到 的 函数 类 型 定义 ， 它 是 一 个 参数 为 空 ， 返 回 值 为 int 类 型 的 函数 ， 还 有 exitcall t 类 
型 函数 类 型 定义 ， 参 数 为 裤 ， 返 回 值 也 为 宝 。 它 们 使 用 了 标准 的 typedeE 用 法 ， 没 有 什么 可 以 研究 的 
typedef int (*initcall_t) (void); 
typedef void (*exitcall_t) (void); 


























H 































































































extern initcall-t —— con initcallvstart, — con initcall end; 
extern initcall t | security initcall start, ^ security initcall end; 
#endif 


#ifndef MODULE 
#ifndef _ ASSEMBLY . 


/* initcalls are now grouped by functionality into separate 
subsections. Ordering inside the subsections is determined 

* by link order. 

* For backwards compatibility, initcall() puts the call in 

* the device init subsection. 


yf 


#define | define initcall(level,fn) \ 
SEC 


— attribute_ ((__section__ (Eee gl level ".init"))) = fn 
define core_initcall (fn) — define_initcall("1",fn) 
define postcore_initcall (fn) define ate Il (WAM seta) 
define arch_initcall (fn) __define_initcall("3", fn) 
define subsys_initcall (fn) __define_initcall("4", fn) 
define fs_initcall (fn) —-—defftne-ouniboen clot" EN) 
define device initcall (fn) . define initcall("6",fn) 
define late initcall(fn) ermenm ae ODER) 
我 们 常见 的 __initcall 宏 实 际 指 的 是 device initcall 

define __initcall(fn) device initcall(fn) 

define exitcall(fn) \ 

static exitcall t __exitcall_##fn X exit call = fn 
define console initcall(fn) \ 








static initcall t __initcall_##fn \ 
. attribute used | __attribute__((__section__(".con_initcall.init")))=fn 


struct obs kernel param { 
Somst haa Sia 
int (*setup func) (char *); 


qewwgulir j/w  JASiSymiEU o 5 





module init() - 声明 驱动 程序 初始 化 入 口 函 数 的 宏 ， 它 实际 就 是 上 面 提 到 的 device initcall 
ex: 此 参数 是 内 核 boot 时 或 将 模块 插入 内 核 时 将 要 调用 的 驱动 程序 函数 
凡是 被 module_init ()“ 修 饰 ” 过 的 函数 只 能 在 两 种 情况 下 被 调用 : 一 种 是 被 do_initcalls 调用 ， 一 种 是 
在 模块 插入 到 系统 中 时 被 调用 (如果 它 是 模块 方式 )。 每 个 模块 只 有 一 个 被 module_init 修饰 的 函数 入 


#define module init(x) __initcall(x); 
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80. 
81. 
825 
83. 
84. 
Sor 
86. 
8k 
88. 
SE 
90. 
gik 
Oe. 
93: 
94. 
95. 
96. 
OY c 
9c 
S98 


100. 
LOL 
11027 « 
1.018) ; 
104. 
MOSR 
106. 
107 
108. 
NOON 
IMOR 
abil. 
WALZ 
LL Sg 
114. 
a 
LLG 
WILY 5 
ALS} s 
ALS). 
EARS 
WAAL 
1227 
WAS 
124. 
125% 
T267 
韭 多 了 号 
WAS s 
LAS) « 
1307 
Ul. 
T20 
Hor 
134. 
1356 
3,3184 
LD 
USS 
ES OF 
140. 
141. 
142. 


module_exit () 





ex: LEB BE IKON FEY BE IN PY AK AS ER V] 


— 声明 驱动 程序 退出 函数 的 宏 ， 

















的 函数 








module exit() 会 封装 驱动 程序 的 clean-up 代码 ， 如 果 驱 动 程序 静态 编译 到 内 核 中 ， 这 个 宏 没 有 意义 。 每 个 














模块 也 只 


#define module exit (x) 














/* MODULE */ 





#else 


/* Don't use these in modules, 
#define core initcall(fn) 
#define postcore_initcall (fn) 
#define arch_initcall (fn) 
#define subsys_initcall (fn) 
#define fs_initcall (fn) 
#define device_initcall (fn) 
#define late_initcall (fn) 


#define security_initcall (fn) 


but some people do... 





—^Milli module. exit 修饰 的 函数 
Seer tcal ee) + 


e 
module init(fn) 
module init(fn) 
module init(fn) 
module init(fn) 
module init(fn) 
module init(fn) 
module init(fn) 


module init(fn) 


/* These macros create a dummy inline: 
as usage, hence the “unused function' warning when _ init functions 
are declared static. We use the dummy | * module inline functions 
both to kill the warning and check the type of the init/cleanup 
function. */ 


gcc 2.9x does not count alias 


/* Each module must use one module init(), or one no module init */ 


#define module init (initfn) N 
Static inline initcall t __inittest (void) \ 
eeu mE \ 


int init module(void) __attribute__((alias(#initfn))); 





/* This is only required if you want to be unloadable. */ 
#define module exit (exitfn) \ 
static inline exitcall t __exittest (void) \ 
return exitin ae \ 


void cleanup module(void) __attribute__( (alias (#exitfn))); 


#define __setup_param(str, unique id, fn) f/** moraine EY 

#define __setup_null_param(str, unique id) /* nothing */ 

#define __setup(str, func) Ie ochnndg Sy 

#define __obsolete_setup (str) //** Re “9 // 
endif 


/* This means "can be init if no module support, otherwise module load 
Wüghy Cul agg 97 


ifdef CONFIG MODULES 


#define _ init or module 
#define _ initdata, or module 
else 
#define ^ init or module . init 
#define _ initdata or module _ initdata 


endif /*CONFIG MODULES*/ 








ifdef CONFIG HOTPLUG 











define _ devinit 
define __devinitdata 
define _ devexit 
define _ devexitdata 
#else 
define _ devinit _ init 
define _ devinitdata __initdata 
define _ devexit _ exit 
define _ devexitdata _ exitdata 
#endif 
/* Functions marked as __devexit may be discarded at kernel link time, depending 


on config options. Newer versions of binutils detect references from 





18 页 





Linux2.6 协议 栈 源 代码 分 析 





143. retained sections to discarded sections and flag an error. Pointers to 
144. . devexit functions must use _ devexit p(function name), the wrapper will 
T45. insert either the function_name or NULL, depending on the config options. 
Milea y 

147. #if defined(MODULE) || defined (CONFIG_HOTPLUG) 

WAS #define _ devexit p(x) x 

149. #else 

15,0) #define __devexit_p(x) NULL 

151. #endif 

152: 


153. #ifdef MODULE 
154. #define _ exit p(x) x 
155. #else 

156, #define __exit_p(x) NULL 
157. #endif 








代码 段 2-2init.h 


这 个 文件 有 一 些 关 于 section 的 定义 比如 在 第 16 行 和 30 行 ， 所 以 本 质 上 initeall t 及 其 他 类 似 的 类 型 
变量 实际 是 宏 , 通过 对 这 个 文件 的 宏 替换 可 以 大 概 了 解 这 些 宏 的 含义 。 例如 ,代码 中 如 果 含 有 __init XXX 
O 这 么 一 个 函数 定义 ， 你 就 知道 那个 XXX 函数 属于 初始 化 的 时 候 就 被 调用 的 ， 它 被 放 在 .init.text 节 中 。 

前 面 说 到 ELF 文件 格式 时 曾 说 了 Link Script 会 把 特定 类 型 的 段 放 在 特定 位 置 让 loader 装 入 到 特定 的 
内 存 地 址 ， 那 么 对 于 被 init 等 宏 修饰 的 函数 及 全 局 变量 肯定 被 放 在 了 特定 位 置 ， 但 如 何 让 basic init 函数 
去 调用 它 ， 我 们 还 得 再 研究 arch/i386/kernel 目录 下 的 vmlinux.lds.S 文件 ， 它 就 是 使 内 核 成 为 内 核 的 Id 
script。 在 这 个 文件 中 便 定义 了 __ initcall_start 和 __initcall | end, WET, 不 止 是 C 文件 和 博文 件 可 以 定义 
变量 。 而 且 也 不 是 象 C 语言 那样 定义 一 个 变量 还 要 指定 类 型 ， 编 译 器 有 足够 的 智商 把 这 个 文件 中 的 变量 
定义 为 需要 的 类 型 ， 一 般 情况 下 会 定义 为 整 型 变量 。 
































































































































正 是 这 个 ld script 创建 了 Linux 内 核 


#include «asm-generic/vmlinux.lds.h» 
#include <asm/thread_info.h> 


#include «linux/config.h» 
#include <asm/page.h> 
#include <asm/asm_offsets.h> 


co -10| 01: CQ) Po 2 


9, OuUMPWa ORMA (STS VelkiesZ—i Sse, ES S36") 
10. OUTPUT_ARCH (i386) 

11. ENTRY (startup_32) 

12. jiffies = jiffies_64; 

1S, SCIONS 





qa 

ILS) . = | PAGE OFFSET + 0x100000; 

16.  /* 代码 段 必定 是 只 读 的 */ 

NIe EE S oF "MEETING dei DISCI ic 
MES sles E 


19. *(.text) 
PIOPEESGEHBIDSEDBXSD 

2L. (ned) 

22. ~(.gnu. warning) 
23. O00) 




















24 
25 .entry.text : { *(.entry.text) } 
26 
2s .etext = .; /* End of text section */ 
28 
TEE // 只 读数 据 段 
ZION RODATA 
30 . 
31.  /* 可 写 数据 段 */ 
32. .data : /* Data */ 


S9. GE) 
34. CONSTRUCTORS 
SD 
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36 . = ALIGN (32); 

Sie .data.cacheline aligned : { *(.data.cacheline aligned) } 

Sig c 

99. . welhEE — op /* 数据 section 在 此 结束 */ 

40. 

41. — ALIGN(THREAD SIZE); /* init task */ 

42. date unm pask «Hoey date tr task ^ 

43. 

44. /* will be freed after init */ 

45. - ALIGN(PAGE SIZE asm); /* 下 面 是 初始 化 代码 和 数据 * / 

46. nt eo 5 8 

47. salsa A 8 H; 

Aes Sunset = sf 

Z9. 4 nee Text) 

50. _einittext = .; 

51 } 

524 Ip deata tb Fe tn data 

59 = ALIGN(16); 

54. . setup start = .; 

SR neeu NEST 

56 . setup end = .; 

57 Stari param = of Other section 

58 — param : { *( param) } 内 核 空 间 的 基本 安排 ,在 这 

59 __stop___param = .; 里 我 没有 严格 按照 实际 的 内 
这 就 是 我 们 日 思 夜 想 的 那 两 个 全 局 变量 存 排列 画 出 真实 的 段 排列 。 .initcalll 

人 pe PERCEKEN A o |} 
: E $ 就 是 说 ， 这 个 堆栈 只 是 内 核 

(922, ** (La smshe@aLILil s 35a) 中 代码 使 用 的 ， 不 是 为 应 用 

(99. **(Ls same GL 1L s rte BERBER. 

(AL. (Cy atimicie eu ILS; s sioalic 

SR 

565. (ne 

(53.5 * (saab GILL s uoti 

(She 5 (Cs alinsbic@e Lil ENE, | 

69 } 六 on t m rad 

70 NEUES -.; EE Poe Feet on sis disnei: t "RO 

WAL 

V2 « .exit.text:{*(.exit.text) } 磁盘 上 obj 文 件 

3135s .exit.data:í(*(.exit.data) } 各 段 的 排列 方式 

74. = ALIGN(PAGE SIZE asm); 

oN T iper cpu starti = y initl 

or .data.percpu : { *(.data.per 

TAIR: __per_cpu_end = .; 

wise = ALIGN(PAGE SIZE asm); 

mor tL = 46 
/* 以 上 的 内 存 段 在 初始 化 结束 之 后 〈 即 这 些 代 码 被 执行 一 次 以 后 ) 就 被 释放 出 来 */ 

(SAO 0 
这 里 存放 未 初始 化 的 数据 

81 — 19e etane = op i WSS 7 

82. lose | 

83. *(.bss.page_aligned) 

84. *(.bss) 

Sion } 

86. = ALIGN (4); 

87 mS SSO Om a 

88. 

OON Tend = 2 3; 

90. 

Sal /* This is where the kernel creates the early boot page tables */ 

OW = ALIGN (4096); 

93 - je = =f 

94. 

95. /* Sections to be discarded */ 

96 /DISCARD/ : { 


97. *(.exitcall.exit) 





B 
N 
© 
= 
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98g. ) 

99. 

EO /* Stabs debugging sections. */ 
Oi, /* 省 略 */ 

KO) e TS 

WOSE } 























代码 段 2-3Linux 内 核 ld scripts 
看 到 了 吗 ? 当 编译 器 编译 整个 源 代码 的 时 候 ， 它 会 把 所 有 定义 为 _init 的 函数 放 在 以 _initcall_start 


&. EL initcall end 结束 的 节 中 ， 在 basic init 中 会 逐个 的 调用 该 节 里 所 有 的 函数 。 不 信 ? 让 我 们 编译 
TAI, 我 们 在 源 文件 根 目录 使 用 objdump -t vmlinux |grep _initcall 输出 信息 ， 就 看 到 我 们 想 看 到 的 东西 

































































































































































(下 面 是 经 过 处 理 的 符号 信息 ): 

1. c12946d4 1 0 4 __initcall_cpufreg tsc 第 一 个 被 初始 化 的 函数 ， 它 的 地 址 正好 是 
. initcall start HJ 

DAS NE tere ety 

3 c12946e4 1 O 4 . initcall ksysfs init 

d E 

5. c12946fc i © A . ipitcall sock init 网 络 基础 设施 比如 内 存 系统 的 初始 化 

6 c1294700 1 O 4 . initcall netlink proto init 

PR NEUE M 

8. c1294770 i O 4 nea oO 

9. c1294774 1 © 4 . imiteall met dey init 网 络 设备 的 初始 化 

10. OMT 1 O 4 . initcall wireless nlevent init 

il, H2 1 O 4 . initcall pktsched init 

Hr DRIN ESI. 

13. c129478c i © 4  . imiteall imit pipe rs 管道 系统 的 初始 化 

14. c1294790 i O 4  . initcall chr dev init 字符 设备 的 初始 化 

gb ed 

16. c12947a4 i © 4 . imiccall inet imit 网 络 系统 的 初始 化 

17. c12947a8 iL © 4 __initcall_time_init_device 

KIA ce 

19. c12947b0 1 0 4 initcall i8259A init systfs 中 断 控制 器 的 初始 化 

AOS E 

ZU Ec T2948 1 O 4 __initcall_init_posix_timers 

22. c12947ec JL O 4 te aS ts 

23.4 (1294350) 1 O 4 . initcall init clocksource sysfs 

24. c12947f4 iL © 4 . initcall init jiffies clocksource 

2 Ne Me ENG 

26. c1294848 1 O 4 __initcall_eventpoll_init 

ZI E ERE RR S 

28. c1294864 il © A . imiteall imt ef ES EXT2 文件 系统 的 初始 化 

:ON 

30. c1294888 i © 24 eal init 这 不 是 init/main.c 文 件 中 的 初始 化 函数 

| 

32. c12948a8 i © . initcall pci init PCI 系统 总 线 的 初始 化 

S9. AONE 1 O 4 __ilimalic@elil joxe3L (SHE simatic 

34. c12948b0 IL O 4 — mle SC OOC iE 

SIDE ES 

36, HE OSIRS 1 ©) 4 __aligabie@eiILil_je@jeoilexe Se alinalie 

Si, CZAS JL O 4 el: 

38. c1294920 1 O 4 __initcall_net_olddevs_init 老实 的 网 络 设备 驱动 程序 的 初始 化 

Co Se erect 

40. c1294974 1 0 4 initcall generic ide init IDE 硬 盘 设 备 的 初始 化 

2] eU 

42. c12949b4 1 O 4  . initcall mousedev init 鼠标 设备 的 初始 化 

49 E eR ode 

ZZ EHE 1 © __initcall_flow_cache_init 

45. 612949d0 I O 4 . initcall blackhole module init 

46. c12949d4 IL O 4 . initcall init, syncookies 

47. drm 

48. c12949e0 iji O 4 ne 

49. c12949e4 JL ©) 4 . initcall packet init 

50 Me due 
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51. c1294a30 1 O 4 initcall net_random reseed 最 后 一 个 被 调用 的 初始 化 函数 ， 它 的 地 址 
正好 是 ”initcall_end 的 前 面 4 个 字 节 

52. 

53. c12946d4 g  "*ABS* 00000000 X initcall start" 







54. c1294a34 g "*ABS* 00000000 X initcall end" 
Oo cope 


下 面 是 一 些 处 于 初始 化 section 的 函数 





这 就 是 我 们 要 找 的 
那 两 个 全 局 变量 , 请 注意 


它们 的 地 址 


















































56. c03ce000 1 d .data.init task 00000000" 

57. c03d0000 1 d ".init.text 00000000" 

58. c03ece80 JL d ".init.data 00000000" 

59. c03£57e0 JL d ".init.setup 00000000" 

COPS ECHO 1 d ".initcall.init 00000000" 

Gil, OSTSEE OU L d ".con initcall.init 00000000" 

GA MEC S5/:9/0 JL d Wh SSC ie ey IEC as alee 00000000" 

GRE EE 

64. c03d0510 JL F ".init.text 00000025 init setup" 

EE UIS iL O ".init.setup 0000000c | setup init setup" 
66. c0100220 1 F ".text 0000002a rest init" 

67. c0100290 1 F ".text 00000151 init" 

68. c03d0570 i F ".init.text 00000091 do early param" 

69. c03d0840 1 F ".init.text 000000bc do initcalls" 

70. c03d0900 1 F ".init.text 0000001f do basic setup" 

71. c0100260 1 F ".text 00000029 run init process" 

72. c010b090 J F ".text 00000127 init intel" 

7/5 «s COES g E ".text 00000034 kobject init" 

74. c0248e90 可 F ".text 00000089 device initialize" 

135 COZEAN g F ".text 0000011c tcp select initial window" 
76. c03e93f0 g F ".init.text 00000053 loopback_init" 

Ti- cOl25 440 g F ".text 00000015 init timer" 

78. c03d7aa0 g 至 ".init.text 00000062 init IRQ" 

79. c03eb650 g F ".init.text 0000006d skb init" 

80. c03df£270 g F ".init.text 000003eb kmem cache init" 

81. c03ecb00 g F SLIME ee (001910000009 0) 3115: nl reo | oa medic 
S20 Es g F ".text 00000033 klist init" 

83. a5808bbf g "*ABS* 00000000 tasklet init" 

84. c03dcdeO g F ".init.text 000000fd proc caches init" 

355 OS g FE ".text 000000c9 ip mc init dev" 

86. c02e57c0 g F ".text 0000007a inet csk init xmit timers" 
87. c039ba80 g O ".data 00000048 tcp init congestion ops" 
88. c03dd590 g F ".init.text 00000027 init timers" 

89. c012d460 g F ".text 0000001f init workqueues" 

90. c03dd410 g F U SHE EEE (QOO 11 Gorei Liae 

91. c03ec400 g F ".init.text 0000000a tcp4 proc init" 

92. c03eb990 g F ".init.text 000000b9 rtnetlink init" 

93. c0121ef0 g F ".text 0000001b tasklet init" 

94. c0281d20 g F ".text 00000065 ide init disk" 

95. c03dd860 g F ".init.text 0000000f sort main extable" 

96. c03ec0d0 g Ej Wo anben eE GOONS emma 

97. 45e55588 g "*ABS* 00000000 _inet_csk_init_xmit_timers" 
98. c0377b4c g O ".data 00000014 __init_timer_base" 

99. c03fa000 g "*ABS* 00000000 _ init end" 

100. c03dd430 g F ".init.text 0000002e spawn_ksoftirqd" 
3E) c03e8bf0 g F ".init.text 00000032 classes init" 

LOZ 4 c03£2660 g ".init.data 00000000 vsyscall int80 end" 
OSs c03ec090 g F We atoae ESSE, ONOONO ao aae A 

104. c02f3e50 g F ".text 0000001b tcp init xmit timers" 
LOS). c03d0670 g F ".init.text 000001b8 start kernel" 

106. c03dcb80 g F ".init.text 00000001 pre setup arch hook" 
LOT 5 c03dd570 g F ".init.text 0000001a sysctl init" 

108. c03ebd40 g F unre x90010/9/0 2a tn 

1499) c03e0e10 g F ".init.text 000000cd ipc init ids" 

LLO 5 c03ecb90 g F ".init.text 0000000a fib rules init" 
ETT c030d640 g F ".text 000000ee fib hash init" 

iL. c03ec4d0 g F ".init.text 00000056 arp init" 

ILLS). c02ea280 g F ".text 0000003d tcp init cwnd" 

114. c03ec410 g F W ALINE e pe WMOOOOSS tec We na A 

TES, c03ed05c g O ". init.data 00000004 root device name" 
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LLG 5 c03ec5e0 
1L s ae005c8b 
LAL} c03eb6c0 
LiL), c02cf590 
120R 9a72cf28 
IAAL c03dd380 
222 c03e8bb0 
I2 S7 231bbdlf 
124. c03f1dd0 
LAS) c c03e0ae0 
126. c01084c0 
Aa 1ac12182 
128. 


F "text 
THEN 


g F VETNIE 
g "*ABS* 
g FE UE satiglabiE d 
g F "text 
g "*ABS* 
g F URIN EEN 
g F DE age S 
g "*ABS* 
g U satiare 
g FE Wd 
g 

g 


text 00000040 devinet_init" 
00000000 _tcp_init_xmit_timers" 
text 00000097 netdev_boot_setup" 
0000027d neigh_table_init" 
00000000 _tcp_init_congestion_ops" 
text 00000047 profile_init" 

text 0000000a devices init" 
00000000 neigh table init" 
.data 00000000 vsyscall int80 start" 
text 0000000a init rootfs" 

0000008a init 8259A" 

00000000  inode init once" 








要 对 这 份 输出 信 ， 
性 ，1 表 示 local， 凡 是 用 static 修饰 的 都 是 这 种 属性 
还 有 用 EXPORT_SYMBOL (这 个 宏 在 linux/module.h : 














代码 段 2-4 内 核 镜像 输出 init 的 打印 
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W 


Mi. 7S Bt Hs 






































可 执行 文件 中 的 





一 般 都 为 0， 如 果 属 于 OR F, 
类 最 特殊 ， 就 是 用 ABS 修 
也 的 连接 ， 我 们 关注 的 
. initcall 标 
CU e BER A ARAIN P1 c n] AE an TE A BY SE Hot h 
前 者 将 设备 驱动 模块 嵌入 整个 Linux 内 核 (vmlinux) | 
时 候 会 从 .init 代码 段 执 行 它 们 的 初始 化 函数 ， 所 以 我 们 可 以 在 上 面 那 个 vmlinux 文件 中 
以 上 就 是 关于 这 种 方式 的 分 析 。 后 一 种 就 是 将 设备 驱动 模块 编译 
执行 文件 ， 以 .ko 为 后 缀 名 放 在 /lib/modules/2.6.xxx/kernely 目 录 下 。 当 系统 启动 时 ， 内 核 启 动 代 但 执行 
sys init module 内 核 函 数 把 它们 加 载 到 内 核 中 。 

每 个 驱动 程序 执行 的 第 一 行 代 码 是 以 module. init 定义 的 函数 。 


大 小 ; 还 有 一 
改 为 其 
和 所 有 使 用 

ES 
Ae UN ATK! 
统 启动 的 


initcall xxx drv 










































































letc/rc.d/rc.sysinit 教 本 ， 其 中 的 代码 会 执行 
不 管 是 什么 方式 加 载 ， 
module init(e100. init module), XXH 
从 很 多 的 资料 上 得 出 
以 便 让 其 它 代 码 可 





除 掉 ， 
从 上 图 看 出 ， 


表示 writable; 第 三 列表 示 此 符号 


section: 第 四 列 和 第 五 列 比较 复杂 ， 如 果 符 号 属于 











那么 第 





initcall 


的 本 质 是 什么 ， 

















生 ，g 表示 global， 内 
定义 ) 修饰 的 变量 和 























蔬 一 列 是 所 有 符号 的 装 入 地 址 ;第 二 列表 示 符 号 的 全 局 性 和 可 读 写 
LUE quM 











函数 也 都 是 属于 global. 








O 表示 是 变量 〈 











般 是 全 局 变量 )，F 表示 函 
d， 那 么 第 五 列表 示 该 section HAA, 


数 ， 4 表示 
































四 列表 示 符 号 所 属 
饰 的 符号 ，*ABS* 表示 绝对 (absolute), iX 








start 和 








记过 的 函数 的 。 





; 男 一 种 是 以 模块 加 载 方式 。 





init PAX. 




















NS 
> XX 





= 























A 














E 





一 个 信 





A: 几 是 用 H 
以 使 用 。 我 没有 时 间 来 印证 ， 和 希望 有 读者 可 以 给 出 正确 的 答 


行 被 系统 执行 的 函数 是 el100_init module. 


























两 种 方式 分 


init 修饰 过 的 函数 在 被 调用 一 次 后 ， 其 占用 的 内 存 











BHJ section, 第 五 列 则 表示 该 符号 所 占用 的 内 存 
意味 着 不 能 将 该 值 更 
initcall_end 就 属于 这 一 类 。 所 以 do_initcalls 就 是 用 来 i 








jal 


， 系 
找到 
对 成 独立 的 可 


T: 























比如 








区 会 被 清 

















ze 





Ro 





网 络 部 分 的 初始 化 代码 入 口 被 我 们 找到 了 。 我 们 可 以 继续 往 下 研究 了 


2.3 ”中 断 及 任务 调度 管理 


Linux 书籍 中 常 说 的 BottomHalf DAAA IL T, 它们 被 转 成 tasklets， 这 是 支持 SMP 的 。 但 其 思想 





一 致 。 


2.3.1 中 断 及 软 中 断 模 型 
我 们 在 此 不 会 对 中 断 及 异常 的 原 芭 


Linux 内 核 与 其 它 舱 入 式 / 实 时 操作 系统 
Linux 支持 CPU 的 外 部 硬件! 






































EE 和 机制 做 深入 的 介绍 。 但 必须 要 作出 一 占 


























断 和 





些 说 明 ， 

















的 不 同 
内 部 中 断 。 严 格 来 说 ， 内 部 中 断 包含 



















































































， 以 及 理解 网 络 协 议 栈 收报 文 的 基础 。 
系统 调用 陷入 和 异常 ， 在 一 














因为 这 是 理解 






























































般 的 租 入 式 操作 系统 (比如 VxWorks) 中 是 没有 系统 调用 这 个 概念 的 ， 所 以 对 于 一 直 从 事 租 入 式 软 件 开 
发 的 人 初次 进入 到 大 型 操作 系统 (比如 Linux 和 Windows) 开发 环境 中 ， 会 面临 内 核 空间 与 用 户 空间 概 
念 上 的 困惑 。 其 实说 到 底 ， 所 谓 系统 调用 ENTE 计划 地 调用 CPU 提供 的 特殊 指令 ， 触 发 CPU 内 部 
产生 一 个 中 断 ， 于 是 完成 一 次 核 内 核 外 运行 空间 的 切换 ， 具 体 可 以 参考 许多 书籍 。 而 所 谓 异常 就 是 软件 
无 意 的 执行 了 一 个 非法 指令 《比如 除 0) 从 而 造成 CPU 内 部 引发 一 次 中 断 。 

外 部 中 断 特 指 外 部 设备 发 出 的 中 断 信 号 。 但 这 几 种 中 断 的 CPU 处 理 过 程 基本 相同 ， 即 : 在 执行 完 当 
前 指令 后 ， 或 在 执行 当前 指令 期 间 ， 根 据 中 断 源 所 提供 的 “中 断 向 量 ”， 在 内 存 中 找到 相应 的 ISR CHET 
服务 例 程 ) 然后 调用 之 。 





不 管 是 内 部 还 





是 外 部 中 断 ， 系 统 都 会 根据 接收 到 的 中 断 信息 ， 查 询 idt 表 。 
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idt 表 依 照 








中 断 源 的 位 置 

















按 序 组 成 ， 
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初始 化 以 后 ， 便 调用 trap init 和 init IRQ 两 个 函数 进行 中 断 机 制 的 初始 化 。 我 们 只 介绍 init_IRQ。 
2.3.1.1. 中 断 系 统 和 软 中 断 











中 断 癌 量 ?” 中 断 请求 号 ? 这 是 个 问题 


p= 
o 
































并 对 应 中 断 服 务 程序 〈 以 及 异常 处 理 程序 ) 的 入 口 地 址 。Linux 系统 在 初始 化 页 式 虚 存 管理 的 











iE 








在 很 多 书 中 都 提 到 这 两 个 名 词 ， 但 我 一 直 没 看 懂 这 些 书 想 表达 的 含义 ， 后 来 有 一 天 我 发 现 我 居然 顿 















































悟 了 。 就 让 我 试图 给 大 家 解释 一 下 ， 看 看 是 不 是 这 样 的 : IRQ 是 设备 相关 的 号 码 ， 一 般 生 产 厂商 都 会 使 




































































的 设备 分 配 到 一 个 合适 的 号 码 。 而 中 断 向 量 就 纯粹 是 操作 系统 中 关于 如 何 处 理 中 断 的 内 存 组 织 结构 ， 


它们 之 间 存 在 某 种 映射 关系 , 这 种 关系 是 由 CPU 体系 结构 以 及 操作 系统 决定 的 ,那么 在 IA32 体系 的 Linux 


中 ,是 一 种 直接 映射 的 关系 , 所 有 的 IRQ 号 产生 的 中 断 全 部 映射 到 从 INT_vec[32] 开 始 的 内 存 中 
































要 从 第 32 个 单元 开始 呢 ? 


一 种 设备 会 使 用 这 个 区 域 的 中 断 向 
断 向 量 号 0x80( 即 128) 就 是 系统 调用 

中 断 ， 这 就 是 为 什么 要 从 第 32 个 单元 开始 的 原因 。 内 核 用 调用 trap_init 函数 挂 接 与 之 相应 的 中 断 处 理 函 
数 。 接 着 系统 调用 init IRQ 函数 来 初始 化 外 部 中 断 向 量 , 其 中 































































































idt_table 
CPU 保留 使 用 的 
中 断 向 量 范围 
INT_vec[32] k IRQ[0] 
实际 系统 使 六 te Ss 
MESE «&———————— UN 系统 普 逼 使 用 
用 的 外 部 中 的 IRQO 范 围 
断 向 量 范围 | | ewe < 
INT_vec[47] < ——  IRQ[15] 
特殊 的 中 断 向 m 保留 的 IRQ 范 围 ， 
系统 调用 基本 没有 用 
XE «4—————————À NE 
INT. vec[255] «4—— — — ——  IRQ[223] 
没有 使 用 到 的 
中 断 向 量 


图 表 2-7 中 断 向 量 和 中 断 请 求 号 之 间 的 关系 
































in 










































































上 图 中 彩色 部 分 都 是 系统 能 处 理 的 中 断 ，intel CPU 保留 使 用 的 中 断 向 量 是 0 一 32， 根 本 不 可 能 有 哪 
量 ， 这 一 部 分 就 是 我 们 常 说 的 异常 处 理 函 数 ， 还 有 一 个 比较 特殊 的 ! 
号 ， 由 于 不 可 能 由 外 部 设备 引发 这 类 中 断 ， 它 们 就 被 统称 为 内 部 


o HITA 






























































ES 























新 处 理 函 数 的 挂 接 由 各 驱动 程序 自己 

















,完成 。 





















































jus 


Br». Æ 2.6 ARAN entry.S 文件 中 ， 有 一 个 interrupt 的 定义 ， 它 放 在 .data WP, Aya, Æ 
include/asm-i386/hw_irq.h 中 引用 这 个 变量 ， 最 后 在 arch/i386/kernel/18259.c 中 初始 化 这 个 变量 。 
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一 种 变量 ， 它 可 能 就 是 中 断 向 量 的 下 标 。 
在 2.6 的 内 核 中 ， 中 断 相关 的 宏 已 经 变化 了 ，2.4 内 核 中 的 中 断 概念 请 看 《Linux 内 核 源 代码 










































































上 图 可 以 看 出 中 断 向 量 和 中 断 请 求 号 是 相关 但 却 不 是 一 个 东西 :前 者 是 内 核 中 存在 的 一 块 内 存 ， 专 门 
断 处 理 函 数 的 地 址 〈 指 逻辑 上 ， 有 具体 实现 比较 复杂 )， 而 后 者 就 是 一 个 概念 ， 在 内 核 中 不 必 存 在 这 





情景 分 











下 面 两 个 代码 片断 是 2.4 内 核 关 于 这 个 interrupt 变量 的 初始 化 : 





1 
2 
3 
4 
5 
6 
7 
8 
9 


#define IRQ(x,y) \ 
IRQ##x##y##_interrupt 


#define IRQLIST_16(x) V 

IRQ(x,0), IRQ(x,1), IRQ(x,2), IRQ(x,3), V 
IRQ(x,4), IRQ(x,5), IRQ(x,6), IRQ(x,7), V 
IRQ(x,8), IRQ(x,9), IRQ(x,a), IRQ(x,b), V 
IRQ(x,c), IRQ(x,d), IRQ(x,e), IRQ(x,f) 











Linux2.6 协议 栈 源 代码 分 析 





10 void (*interrupt[NR_IRQS]) (void) = { 
11  IRQLIST. 16(0x0), 








代码 段 2-524 "PR E GU 


经 过 编译 器 的 预 处理 ，intettupt 3X HAIG 4T MAR XL: 













































































1 void (*interruptINR_IRQS]) (void) = { 
2 IRQOXxOO interrupt, 
3 IRQOxO1 interrupt, 
4 IRQOx02_interrupt, 
5 ANGERS 
6 IRQOx0f_interrupt, 
7 
从 代码 中 看 出 , 这 样 的 初始 化 不 太 灵 活 , 扩展 性 比较 差 。 下面 给 出 2.6 内 核 关 于 interrupt 的 使 用 方式 。 
首先 在 entry.S 中 汇编 代码 如 下 : 
il /* 
2 * Build the entry stubs and pointer table with some assembler magic. 
3 my 
ee Ce Hifdef CONFIG PCI MSI 
5 ENTRY (interrupt) #define NR_IRQS FIRST_SYSTEM_VECTOR 
6 .text 
7 #define NR IRQ VECTORS NR IRQS 
注意 这 里 要 重复 NR TRO 次 ， HH else 
8 vector=0 . 
9 ENTRY (irq entries, start) #ifdef CONFIG X86 IO APIC 
10 rept NR INOS ”3 > #define NR_IRQS 224 PC 机 一 般 都 是 这 个 定义 
11 ALIGN 
# if (224 >= 32 * NR_CPUS) 
12 ls pushl vector- 236 # define NR_IRQ_VECTORS NR_IRQS 
13 jmp common interrupt 
14 .data # else 
S abone LA # define NR_IRQ_VECTORS (32 * NR_CPUS) 
16 .text 
17 vector=vectof+1 # endif 
18 .endr 
19 #else 
20 ALIGN #define NR_IRQS 16 
21 common interrupt: 
22 SAVE ALL #define NR IRQ VECTORS NR IRQS 
23 movl $esp,$eax #endif 
24 call do_IRQ 
25 jmp ret from intr 由 endif 


























在 hw_irq.h 中 有 这 样 的 定义 : extern void ("interrupt[NR_IRQS (void); Æ IE, NR_IRQS Æ 224. H4% 
的 初始 化 如 下 : 
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也 xorde ine const IBO(VvOlYO) 
2 { 
8 a el 
4 
5 /* all the set up before the call gates are initialised */ 
6 pre intr init hook(); 
7 
8 Js 
9 * 扫描 整个 中 断 向 量 表 
10 A 
ii for (i = 0; i < (NR VECTORS - FIRST EXTERNAL VECTOR); i++) { 
12 int vector = FIRST EXTERNAL VECTOR + i; 
13 if (i >= NR IRQS) 
14 break; 
如 果 是 系统 调用 中 断 号 ， 就 初始 化 这 个 中 断 号 
ILS) if (vector != SYSCALL_VECTOR) 
16 set intr gate(vector, interrupt[i]); 
iy } 
Jo | Te 
19 EE 
20 * Set the clock to HZ Hz, we already have a valid vector now: 
BAL */ 
22 setup pit timer (); 
2:3) 
240» Nr eres 
25 
26 irq ctx init(smp processor id()); 
BY} 





代码 段 2-6init IRQ 函数 
下 面 是 关于 中 断 上 下 文 的 一 些 宏 ， 说 明 中 断 处 理 到 达 一 种 什么 样 的 程度 ; 





























































































































































































































IRQ_INPROGRESS 1 当前 还 在 中 断 上 下 文中 

IRQ_DISABLED 2 中 断 被 禁止 

IRQ_PENDING 4 中 断 被 挂 住 

IRQ_REPLAY 8 继续 中 断 处 理 

IRQ_AUTODETECT 16 动 检测 中 断 请 求 

IRQ_WAITING 32 对 于 自动 检测 中 断 ， 此 时 可 能 还 没有 看 到 中 断 到 来 

IRQ_LEVEL 64 使 用 中 断 优 先 级 别 一 一 Linux 没有 使 用 这 项 特性 

IRQ_MASKED 128 | 该 中 断 被 屏蔽 了 ， 将 来 不 希望 看 到 

IRQ_PER_CPU 256 | 每 个 CPU 都 有 一 个 IRQ 

在 include/linux/irq.h 文件 中 ,， 有 关于 中 断 控制 器 的 描述 , 中断 控 制 器 描述 符 . 它 包 含 了 所 有 低层 硬件 









































的 信息 。 
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其 中 一 个 实例 是 i8259A_irq_type， 它 定义 在 arch/i386/kernel/i8259.c F: 
struct hw_interrupt_type { 











1 static struct hw interrupt type -|- -^'Ccónst char * typename; 
i8259A irq type -== unsigned int (*startup) (unsigned int irq); 
2 WI EO void (*shutdown) (unsigned int irq); 
S Startup 8259A irq, void (*enable) (unsigned int irq); 
4 shutdown 8259A irgq, void (*disable) (unsigned int irq); 
5 enable_8259A_irq, void (*ack) (unsigned int irq); 
6 disable_8259A_irq, void (*end) (unsigned int irq); 
E mask and ack 82594, void (*set affinity) (uint irq, cpumask t dest); 
8 end 8259A irq, »— 
9 NULL typedefstructhw interrupt type hw irq controller; 
10 }; 
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下 面 这 个 数组 的 定义 利用 了 GCC 编译 器 的 特点 , 只 定义 了 一 个 单元 的 值 , 然后 使 用 [0 ... NR_IRQS-1] 


















































































































































使 整个 数组 的 值 都 初始 化 为 同样 的 值 ; typedef struct irq desc | 
1 7* unsigned Amt status; /* TRO 状态 */ 
2 * Controller mappings for all hw ird controller *handler; a . 
interrupt sources: e--7 struct irqaction *action; /* IRQ 行为 列表 */ 
3 s 有 -一 unsigned int depth; /*Æ ERKE irq */ 
E D ora | unsigned int irq count; /* 用 来 检测 被 阻塞 的 中 断 */ 
—cacheline_aligned = {-~- unsigned int irqs_unhandled; 
5 [O soo NRTROS=1]) = of spinlock_t lock; 
6 .handler = &no_irg type, i . ; y 
7 .lock = SPIN_LOCK_UNLOCKED 一 一 cacheline-aligneq irq dese bp 
8 } 
9 ); 
现在 让 我 们 从 整体 上 看 中 断 和 软 中 断 的 处 理 过 程 ，do_IRQ 是 直接 被 调用 的 : 
Interrupt[O] 
Interrupt[1] 
"m — do IRQ 
Interrupt[253] 
Interrupt[254] . do IRQ 























irq. exit 


























invoke softirq 








图 表 2-8 do IRQ 函数 调用 树 


每 个 外 部 中 断 都 会 调用 do_ 了 RQ， 此 函数 根据 当时 的 EAX 寄存 器 (i386 体系 ) 值 来 判断 当前 属于 哪 
A IRQ 去 调用 _do_IRQ。 































































































jb /** 

2 * _ do IRQ - original all in one highlevel IRQ handler 

3 * @irg: i do IRO 传 入 的 EAX 寄存 器 值 

4 * @regs: 指 向 发 生 中 断 时 寄存 器 集合 

5 * 

6 * — do IRQ 处 理 所 有 正常 的 设备 IRQ， 它 处 理 每 一 种 中 断 类 型 。 而 特殊 的 SMP CPU 有 其 自身 的 处 理 函 数 
**/ 

8 fastcall unsigned int _ do IRQ(unsigned int irq, struct pt regs *regs) 
9 { 

10 struct irq desc *desc = irq desc + irq; 

LIL GENE CETE LCN. “elCiEaL@ialp 

12 unsigned int status; 

13 

14 if (CHECK IRQ PER CPU(desc-»status)) i 

L5 irqreturn_t action ret; 

16 处 理 IRQ 事件 ， 见 下 文 

Ly action_ret = handle_IRQ event (irq, regs, desc->action); 

18 return 1; 

i9 ) 

20 

eT Spin lock(&desc-»lock); 

D 

23 he 

24 * REPLAY is when Linux resends an IRQ that was dropped earlier 
25 * WAITING is used by probe to mark irqs that are being tested 
26 2 

27 status = desc->status & ~(IRQ_REPLAY | IRQ WAITING); 

28 status |= IRQ_PENDING; /* we _want_ to handle it */ 

ZY 





D 
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/* 
* If the IRQ is disabled for whatever reason, we cannot 
* use the action we have. 
rA 

action = NULL; 


desc->status = status; 





* 
* Edge triggered interrupts need to remember pending events. 

* This applies to any hw interrupts that allow a second 

* instance of the same irq to arrive while we are in do IRQ 

* or in the handler. But the code here only handles the second. 
* instance of the irg, not the third or fourth. So it is mostly 
* useful for irq hardware that does not mask cleanly in an 

* SMP environment. 


for (;;) ( 
irqreturn t action ret; 
处 理 IRO 事件 ， 见 下 文 


action ret = handle IRQ event(irqg, regs, action); 




















desc->status &= -IRQ PENDING; 


} 
desc->status &= ~IRQ_INPROGRESS; 


return 1; 


<3 





代码 段 2-7do_IRQ 函数 





把 action 传 入 了 handle_IRQ_event， 然 后 在 其 中 执行 action->handler， 此 handle 就 是 每 个 设备 驱动 程 





序 挂 接 的 ISR. 





i 


No 0C) ND 


/* 
* 函数 返回 值 告诉 我 们 对 此 中 断 是 否 还 有 要 处 理 的 工作 ， 如 果 有 的 话 还 得 告诉 软 中 断 机 制 完成 这 些 工作 
x 
asmlinkage int handle IRQ event (unsigned int irq, 

struct pt regs *regs, struct irgaction *action) 
































int status = 1; /* Force the "do bottom halves" bit */ 
int retval 0g 





注意 这 里 是 一 个 循环 ， 如 果 某 个 中 断 被 指定 为 SHARED， 那 么 很 有 可 能 多 个 中 断 服务 程序 要 处 理 此 中 断 。 





do { 
status |= action->flags; 
retval |= action-»handler(irg, action-»dev id, regs); 
action = action-»next; 


) while (action); 


return retval; 





代码 段 2-8handle IRQ. event 函数 
上 面 介 绍 的 是 硬件 过 来 的 中 断 ， 而 传说 中 的 软件 中 断 〈 不 是 软 中 断 ) 是 怎么 工作 的 呢 ? 其 实 很 简单 ， 






























































下 面 这 副 图 是 否 能 满足 您 的 求知 欲 呢 ? 那些 曲线 箭头 表示 代码 的 执行 路 径 。 要 注意 的 是 在 socket( ) 函 数 的 
实现 过 程 中 ， 那 些 mov 指令 就 是 告诉 内 核 要 跳 转 的 系统 调用 函数 以 及 用 户 待 传 入 内 核 的 参数 地 址 。 不 同 
的 CPU 结构 上 会 使 用 不 同 的 寄存 器 ， 我 这 里 就 不 详细 说 明了 。 
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APRS 
main() 
{ 
d glibc 中 的 代码 
} 
Yocket() 
{ 
asm(“mov ax, N”); 
asm(*mov bx, M"); 
wae 发 生 一 次 系统 调用 — asm('int 0x80"): 
} 











Kernel Space 








*sys_call_table(,%eax,4) 


ENTRY(system call)" 
RINGO INT FRAME 
pushl %eax 
SAVE ALL 


syscall table.Srn 
的 代码 


NTRY(sys_call_table) 
sys_socketcall 
sys_open 





E 





所 以 ， 软件 中 
直接 跳 转 到 内 核 中 
sys_socketcall 来 解 复 用 不 
面 的 API: 


























Wr RA Ach 








辣 的 系统 


方式 和 硬件 的 处 怕 
的 代码 执行 sys_socketcall。 在 2.6.18 的 内 核 中 ， 








图 表 2-9 系统 调用 发 生 的 情况 


路 径 是 完全 不 一 样 的， 它 不 必 经 过 do IRQ 这 个 函数 ,而 是 
BSD 网 络 接口 的 方式 已 经 变 成 了 使 用 






























































骨 用 ， 这 样 做 的 好 处 是 减少 系统 调用 表 的 大 小 ， 可 以 集中 管理 网 络 方 








asmlinkage long sys_socketcall(int call, unsigned long __user *args) 


sys_socket (a0,al,a[2]); 


sys_connect (a0, 


sys_accept (a0, (struct sockaddr __user *)al, 


break; 


sys_bind(a0, (struct sockaddr __user *)al, a[2]); 


(struct sockaddr __user *)al, a[2]); 


sys_listen(a0,al); 


(int __user *)a[2]); 


1 

2 { 

3 unsigned long a[6]; 
4 unsigned long a0,a1; 
5 int err; 

6 copy_from_user(a, args, nargs[call]); 
qw 9n 

8 

9 a0-a[0]; 

LO) al-a[1] 

HE 

12 switch (call) 

ENS { 

14 case SYS_SOCKET: 
ILS) err = 

E 

17) case SYS BIND: 
18 err = 

19 break; 

20 case SYS_CONNECT: 
23 err = 

22 break; 

23 case SYS_LISTEN: 
24 err = 

25 break; 

26 case SYS_ACCEPT: 
27 err = 

28 break; 
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2:9 ce Ot eye 

30 case SYS_SEND: 

31 err = sys_send(a0, (void | user *)al, a[2], a[3]); 

82 break; 

33 case SYS_SENDTO: 

34 err = sys_sendto(a0, (void __user *)al, a[2], a[3], 

35 (struct sockaddr __user *)a[4], a[5]); 

36 break; 

7 case SYS RECV: 

38 err = sys recv(a0O0, (void | user *)al, a[2], a[3]); 

38) break; 

40 case SYS_RECVFROM: 

41 err = sys recvfrom(a0, (void _ user *)al, a[2], a[3], 

42 (struct sockaddr  . user *)a[4], (int | user *)a[5]); 
43 break; 

24 a 

45 case SYS SENDMSG: 

46 err = sys sendmsg(a0, (struct msghdr _ user *) al, a[2]); 
47 break; 

48 case SYS RECVMSG: 

49 err = sys recvmsg(a0, (struct msghdr _ user *) al, a[2]); 
50 break; 

5l default: 

52 err = -EINVAL; 

55 break; 

54 ) 

55 WS\ewiain Sree p 

56 ) 





代码 段 2-9 sys socketcall 函数 


j 前 为 上 上 ， 我 们 我 们 讨论 的 都 是 真正 的 中 断 ， 那 么 什么 是 软 中 断 呢 ? 请 读者 回顾 在 中 断 即 将 退出 的 
时 候 会 调用 irq_exit， 它 内 部 会 判断 是 否 还 有 中 断 要 处 理 ， 如 果 已 经 没有 了 就 调用 invoke_softirq， 这 是 一 
个 宏 ， 它 被 定义 成 do_softirq， 此 函数 最 终 调 用 _do_softirq， 这 也 就 是 说 ， 实 际 上 软 中 断 是 在 处 理 完 所 有 
中 断 之 后 才 会 处 理 的 。 而 且 处 理 软 中 断 的 时 候 还 是 处 于 中 断 上 下 文中 。 不 过 有 一 些 限制 ， 详 见 下 面 对 
. do softirq 代码 的 分 析 。 
在 目前 Linux 内 核 中 定义 了 6 种 软 中 断 ， 而 且 告 诚 我 们 不 要 轻易 的 再 定义 新 的 软 中 断 ， 原 话 如 下 : 
PLEASE, avoid to allocate new softirqgs, if you need not really high frequency threaded 
job scheduling. For almost all the purposes tasklets are more than enough. F.e. all serial 


device BHs et 
al. should be converted to tasklets, not to softirgs. 


虽然 系统 中 定义 了 6 种 软 中 断 ， 但 在 start_kernel 函数 中 调用 的 softirq_init， 只 初始 化 了 2 个 ， 分 别 









































































































































































































































































































































li enum 

J; VOLC meae JO gae ainuke el) { 

INCOME US"... 3 HI SOFTIRQ-0, 

3 open softirq(TASKLET SOFTIRQ, tasktet, action,- NULI);  — TIMER SOFTIRQ, 
4 open softirq(HI SOFTIRQ, taskIé6t hi action; -NULL); NET TX SOFTIRQ, 
5 } x T NET RX SOFTIRQ, 











m SCSI SOFTIRQ, 
TASKLET SOFTIRO 





代码 段 2-10softirg init 函数 





软 中 断 向 量 OC AY HLSOFTIRQ ) 用 于 实现 高 优先 级 的 软 中 断 , 软 中 断 癌 量 3( 即 TASKLET_SOFTIRQ) 
则 用 于 实现 诸如 tasklet 这 样 的 一 般 性 软 中 断 。 

Tasklet 机 制 是 一 种 较为 特殊 的 软 中 断 。Tasklet 一 词 的 原意 是 “小 片 任务 "的 意思 ， 这 里 是 指 一 小 段 可 
执行 的 代码 ， 且 通常 以 函数 的 形式 出 现 。 软 中 断 向 量 HI SOFTIRQ 和 TASKLET_SOFTIRQ 均 是 用 tasklet 
机 制 来 实现 的 。 
从 某 种 程度 上 讲 , tasklet 机 制 是 Linux 内 核对 BH 机 人 制 的 一 种 扩展 。 在 2.4 内 核 引 入 了 softirg HL 
原 有 的 BH 机 制 正 是 通过 tasklet 机 制 这 个 桥梁 来 纳入 softirq 机 制 的 整体 框架 中 的 。 正 是 由 于 这 种 历史 的 
延伸 关系 ， 使 得 tasklet 机 制 与 一 般 意 义 上 的 软 中 断 有 所 不 同 ， 而 呈现 出 以 下 两 个 显著 的 特点 ; 
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L 与 一 般 的 软 中 断 不 同 ， 某 一 段 tasklet 代码 在 某 个 时 刻 只 能 在 一 个 CPU 上 运行 ， 而 不 像 一 般 的 软 
中 断 服 务 函数 〈 即 softirq_action 结构 中 的 action 函数 指针 ) 那样 ?2? 在 同一 时 刻 可 以 被 多 个 CPU 并 发 
地 执行 。 

2. 与 BH 机 制 不 同 , 不 同 的 tasklet 代码 在 同一 时 刻 可 以 在 多 个 CPU 上 并 发 地 执行 ， 而 不 像 BH fri 
那样 必须 严格 地 串 行 化 执行 〈 也 即 在 同一 时 刻 系统 中 只 能 有 一 个 CPU 执行 BH 函数 )。 

Bottom Half 机 制 在 新 的 softirq 机 制 中 被 保留 下 来 ， 并 作为 softirg 框架 的 一 部 分 。 其 实现 也 似乎 更 为 


























cm 






























































复杂 些 , 因为 它 是 通过 tasklet 机 制 这 个 中 介 桥 深 来 纳入 softirq 框架 中 的 。 实 际 上 , 软 中 断 向 量 HIL_SOFTIRQ 



































是 内 核 专用 于 执行 BH 函数 的 。 

di void open softirq(int nr, void (*action) (struct softirqg action*), void *data) 
2 { 

3 Softirq vec[nr].data = data; 

4 Softirq vec[nr].action = action; 

5 } 





代码 段 2-110pen softirq 函数 
最 多 只 处 理 10 个 软 中 断 ， 如 果 系 统 内 部 的 软 中 断 
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件 太 多 ， 那 么 就 会 





我 们 会 发 现 _do_softirq H Y 





















































































通知 ksoftirqd 内 核 线程 处 理 软 果断 。 这 样 ， 就 不 会 占用 太 多 的 中 断 上 下 文 执行 时 间 。 

Ne asmlinkage void __do_spftirg(void) 

2 { 

S struct softirq actjüion *h; 

4 . u32 pending; 

5 int max restart + MAX SOFTIRQ RESTART; // 这 个 宏 的 值 是 10 

6 int cpu; 

7 

8 pending = local/softirq pending(); 

9 

10 restart: ; 

Mir ca aD Ksoftirqd() 

112 local irq enaple(); { 

13 A While(1) 

iá h = softirq_pec; i { : ERE CRM y 
15 1 如 果 没 有 软 中 断 事件 就 重新 调度 系统 
16 do { : if (!local softirq pending()) 
iy if (pending & 1) { 1 schedule (); 

18 h->action (h) ; ! 

19 ) i while(local softirq pending()) 
20 h++; 1 

21 pending >>= 1; i 又 重新 执行 软 中 断 处 理 函 数 
22 } while (pending); do_softirq(); 

25 

24 local irqg disable(); 

25 

26 pending = local softirq pending(); 






































如 果 发 现 还 有 未 处 理 的 软 中 断 ， 而 且 没 有 超过 10 个 个 ， 就 继续 处 理 
if (pending && --max restart) a 

COLO Tee Vari: 
如 果 已 经 处 理 了 10 个 软 中 断 ， eI 那么 就 通知 软 中 断 内 核 守护 进程 (内 部 调用 
wake up process pi) "A 
if (pending) Zi 


一 


wakeup softirqd(); --7 












































trace softirqg exit(); 


account system vtime (current); 
local bh enable(); 
} 





时 注 


代码 段 2-12 do softirq 函数 


k'softiqrd 内 核 线程 属于 Linux 系统 必需 的 部 分 , 它 在 系统 初始 化 的 时 候 就 被 创建 了 。 大 家 在 裁减 Linux 
意 不 要 把 这 部 分 代码 给 删除 了 。 
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关于 这 两 个 软 中 断 的 技术 ， 可 以 查阅 相关 文档 ， 而 且 我 们 在 后 面 关于 报 文 接收 的 章节 中 还 要 





























中 断 ， 这 里 就 不 多 说 了 。 
2.3.1.2. 设 备 驱 动 挂 接 ISR 























提 到 软 






















































































设备 驱动 程序 要 处 理 硬 件 中 断 ， 必 须 挂 接 ISR， 则 挂 接 一 个 ISR 可 以 用 这 个 函数 ; 
jl /** 
2 request_ irq - allocate an interrupt line 
3 * Gies Us rer 
4 * handler: 就 是 传说 中 的 ISR 
5 * @irgflags: 中 断 类 型 标志 
6 * ”Q@devname: 该 设备 的 名 字 ， 可 以 由 人 看 懂 的 字符 
7 * @dev_id: 似乎 是 一 个 ID， 但 是 实际 上 在 我 们 要 讨论 的 网 络 设备 中 就 是 net_qdevice{} 结 构 的 - 
8 * 
9 SEES SE 
10 * SA SHIRQ 中 断 是 共享 的 
id * 
12 * SA INTERRUPT Ta EUER LEA Mp Ir 
13 5 
14 */ 
15) 
16 int request irq(unsigned int irq, 
idi irgreturn t (*handler) (int, void *, struct pt regs *), 
18 unsigned long irgflags, 
LS) const char * devname, 
20 void *dev_id) 
PUT 


22 bm aule 
215 (here nact on ct Eon, 


2I actlon (St tea ton) 
28 kmalloc(sizeof (struct irqaction), GFP ATOMIC); 








此 handler 就 是 刚才 介绍 的 handle_IRo_event 函数 中 要 处 理 的 handler。 
30 action->handler = handler; 
31 action->flags = irgflags; 


32 action->mask = 0; 
33 action->name = devname; 
34 action->next = NULL; 


35 action->dev_id = dev id; 





36 

37 retval = setup irq(irg, action); 
38 

39 return retval; 

40 } 


BST 





代码 段 2-13request_irq 函数 


























要 注意 的 是 你 在 挂 接 ISR 之 前 要 正确 的 初始 化 你 的 设备 ， 并 且 要 保证 用 正确 的 顺序 挂 接 中 断 。 里 面 
以 至 于 handle_IRQO event 


























调用 setup. irq 就 是 把 第 27 行 创建 的 irqaction{} 挂 接 到 对 应 中 断 的 链表 上 ， 
能 根据 ing 号 直接 找到 对 应 handqler。 里 面 的 实现 我 们 就 不 详细 说 了 , 有 兴 


2.3.2 ”各 种 语 境 下 的 切换 



































某 一 个 进程 只 能 运行 在 用 户 方 式 (user mode) 或 内 核 方式 (kernel mode) F. J 























ST 15e A B eis 








究 研 究 。 


























昌 户 程序 运行 在 用 








户 方式 下 ， 而 系统 调用 运行 在 内 核 方式 下 。2.6 调度 系统 从 设计 之 初 就 把 开发 重点 放 在 更 好 满足 实时 性 和 











=< 


多 处 理 机 并 行 性 上 ， 并 且 基 本 实现 了 它 的 设计 目标 。 
新 调度 系统 的 特 性 概括 为 如 下 几 点 : 
。 继承 和 发 扬 2.4 版 调度 器 的 特点 : 
o 交互 式 作 业 优先 
o ， 轻 载 条 件 下 调度 /唤醒 的 高 性 能 
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公平 Eri 


基于 优先 级 调度 
高 CPU 使 用 率 
SMP 高 效 灯 和 
实时 调度 和 cpu 绑 定 等 调度 手段 
基础 之 上 的 新 特性 : 

0O(1) 调 度 算法 ， 调 度 器 开销 恒定 (与 当前 系统 负载 无 关 )， 实 时 性 能 更 好 

高 可 扩展 性 ， 锁 粒度 大 幅度 减 小 
新 设计 的 SMP 亲 和 方 法 
计算 密集 型 的 批 处 理 作 业 的 调度 
重 载 条 件 下 调度 器 工作 更 平滑 

子 进程 先 于 父 进程 运行 等 其 他 改进 

在 2.6 中 ， 就 绪 队 列 定义 为 一 个 复杂 得 多 的 数据 结构 struct runqueue， 并 且 ， 尤 为 关键 的 是 ， 每 

个 CPU 都 将 维护 一 个 自己 的 就 绪 队 列 ，-- 这 将 大 大 减 小 竞争 。 
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net pv 

ow 






























































于 茶 一 个 特定 的 进程 ， 它 必定 处 于 下 面 状态 中 的 一 个 : 






































宏 定义 fi 含义 
TASK RUNNING 0 | 正在 运行 的 进程 (是 系统 的 当前 进程 ) 或 准备 运行 的 进程 (在 



































Running 队列 中 ， 等 待 被 安排 到 系统 的 CPU )。 处 于 该 状态 的 
进程 实际 参与 了 进程 调度 














处 于 等 待 队 列 中 的 进程 ， 待 资源 有 效 时 唤醒 ， 也 可 由 其 它 进 
程 被 信号 中 断 、 唤 醒 后 进入 就 绪 状 态 


fk 





TASK_INTERRUPTIBLE 












































TASK UNINTERRUPTIBLE |2 | 处 于 等 待 队列 中 的 进程 ， 直 接 等 待 硬件 条 件 ， 待 资源 有 效 时 
唤醒 ， 不 可 由 其 它 进程 通 过 信号 中 断 、 唤 醒 




























































































TASK_STOPPED 4 | 进程 被 暂停 ， 通 过 其 它 进程 的 信号 才能 唤醒 。 正 在 调试 的 进 
程 可 以 在 该 停止 状态 
TASK_ZOMBIE 8 | 终止 的 进程 , 是 进程 结束 运行 前 的 一 个 过 度 状态 〈 僵 死 状 态 )。 












































虽然 此 时 已 经 释放 了 内 存 、 文 件 等 资源 ， 但 是 在 Task 向 量 表 
中 仍 有 一 个 task_struct 数据 结构 项 。 它 不 进行 任何 调度 或 状态 
转换 ， 等 待 父 进 程 将 它 彻底 释放 



























































23.3 内核 下 的 同步 与 互 斥 
同步 与 互 斥 是 有 区 别 但 又 互相 联系 ， 在 经 典 的 操作 系统 教材 中 两 个 术语 可 以 互 换 ， 为 什么 ? 因为 同 
步 是 建立 在 互 斥 的 基础 之 上 的 。 只 有 实现 了 互 斥 功能 ， 才 能 实现 同步 机 制 ， 它 们 之 间 的 关系 有 点 类 似 于 
TCP AI IP 的 关系 。 在 现实 的 操作 系统 实现 中 ， 这 两 者 被 严格 的 区 分 开 来 。 同 步 一 般 用 semaphore 表示 ， 
互 斥 一 般 用 spin lock 来 表示 。Windows 内 核 源 代码 也 是 如 此 ，linux 内 核 中 亦 然 。 主 要 的 区 别 是 在 
semaphore 机 制 中 ， 当 某 进 程 进 不 了 临界 区 时 会 进行 其 它 进 程 的 调度 ， 而 spin lock 刚 执行 忙 等 (在 smp 
中 是 这 样 ， 但 在 单一 CPU 环境 下 则 是 空 语句 ， 我 们 会 在 下 面 呈 现 给 大 家 看 )。 我 们 知道 ， 内 核 中 的 执行 
路 径 主 要 有 : 
1 用 户 进 程 的 内 核 态 ， 此 时 有 进程 context， 主 要 是 代表 进程 在 执行 系统 调用 等 。 
2 中 断 或 者 异常 或 者 自 陷 等 ， 从 概念 上 说 ， 此 时 没有 进程 context， 不 能 进行 context switch. 
3 软 中 断 ， 从 概念 上 说 ， 此 时 也 没有 进程 context。 
司 时 ， 相 同 的 执行 路 径 还 可 能 在 其 他 的 CPU 上 运行 。 
这 样 ， 考 虑 这 四 个 方面 的 因素 ， 通 过 判断 我 们 要 互 斥 的 数据 会 被 这 四 个 因素 中 
的 哪儿 个 来 存 取 ， 就 可 以 决定 具体 使 用 哪 种 形式 的 锁 。 
2.3.3.1. 中 断 相关 的 锁 
local_irq_disable/local_irq_enable, 表示 只 是 对 当前 执行 上 下 文 的 CPU 进行 开 / 关 
情形 下 ， 不 保证 其 他 CPU 会 响应 中 断 。 


2.3.3.2.spin_lock/spin_inlock 
Spin lock 采用 的 方式 是 让 一 个 进程 运行 ， 另 外 的 进程 忙 等 待 ， 由 于 在 只 有 一 个 cpu 的 机 器 (UP) 上 微 
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Ir. WATE CPU 
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Bi? YORI 


观 上 只 有 一 个 进程 在 运 
及 多 核 等 技术 的 讨论 
基本 都 无 视 而 过 。 








spinlock_XXX 有 很 多 形式 ， 有 


spin_lock()/spi 


去 行 .所 以 在 UP 中 , spin lock 和 spin unlock 就 都 是 











2 HX 





n unlock(); 


spin lock irq()/spin unlock irq(); 
spin lock irqsave/spin unlock irqrestore() 


spin lock bh() 


/spin, unlock bh() 


local bh disable/local bh, enable 


那么 , 在 什么 情况 下 有 具体 上 


径 相互 斥 。 


€ 如 果 只 要 和 其 他 CPU HJF 


















































《 趣 的 读者 可 以 自己 在 完成 研究 。 


哪个 呢 ? 这 要 看 是 在 什么 内 核 执 行路 径 中 ， 


在 本 











spin_lock/spin_unlock, 














































































































空 的 了 。 本 文 并 不 打算 涉及 SMP 
书 中 ， 凡 是 遇 到 了 spin lock 及 其 变 体 ， 








以 及 要 与 哪些 内 核 执行 路 




















€ "FE im 及 其 他 CPU HJF spin, lock, irg/spin, unlock, irq; 
€ 如 果 既 要 和 irq 及 其 他 CPU 互 斥 ， 又 要 保存 EFLAG 的 状 

态 ， spin_lock_irqsave/spin_unlock_irqrestore, 
€ 如 果 要 和 bh 及 其 他 CPU 4 /r——spin lock bh/spin unlock bh, 
€ 如 果 不 需 要 和 其 他 CPU A, HJ bh HJ, local_bh_disable/local_bh_enable. 

本 来 不 想 讲述 太 多 关于 spin lock 的 东西 ， 但 是 由 于 在 检查 其 代码 的 时 候 花 费 了 我 大 量 的 时 间 ， 
如 果 不 记 下 来 ， 以 后 又 忘记 了 ， 多 可 惜 ! 于 是 ， 我 不 得 不 花 点 笔墨 来 描述 其 结构 。 

Spin lock 在 代码 中 有 好 多 定义 , 但 其 实 就 是 _spin_lock， 它 在 spinlock.c 中 实现 ，( 为 什么 我 选择 
“Preempt” 了 还 是 要 定义 成 : 

void __lockfunc _spin_lock(spinlock_t *lock) 

{ 





}s 


preempt_disable(); 
_raw_spin_lock (lock); 








我 就 不 知道 


J) 


_raw_spin_lock 会 


# define _raw_spin_lock(lock) 


中 间 有 一 个 空格 ， 








译 要 求 的 语句 。 然 后 我 们 回 至 








会 让 我 们 有 








__raw_spin_lock(&(lock)->raw_lock), YEH, JE4 48! define 


个 错觉 ， 似 乎 这 是 一 句 不 会 
| spinlock.h 的 上 部 ， 发 现 这 么 几 句 代码 : 




















被 编译 的 代码 ， 但 是 它 确实 








是 符合 C 编 











#else 
+ incl 
#endif 





dif defined (CONFIG SMP) 
# include <asm/spinlock.h> 


ude «linux/spinlock up.h» 











么 根据 我 本 人 的 机 器 ， 它 是 音 

















到 raw spin lock 的 定义 : 


# define ra 
看 到 没有 ?这 就 
书 中 为 什么 无 视 它 的 




















w_spin_lock(lock) 


是 spin, lock 在 单一 处 弄 











2.3.3.3.down/up 信和 号 


内 核 中 的 semaphore 机 制 。 


一 个 任务 通 


sai 






Be pO ER T 
前 的 wake _upO 会 暂 时 地 唤醒 等 待 进程 ， 














后 又 进入 等 待 状态 。 
可 以 看 出 ，sema 








过 调用 GO 资源 





FH 




















"e 


核 ， 不 是 什么 SMP， 而 是 UP， 所 以 我 们 会 在 spinlock up.h ! 


do ( (void)(lock); } while (0) 





器 上 的 实现 ， 


down() 和 up0 两 个 操作 实现 。down() 用 
是 释放 资源 ， 为 什么 不 叫 更 形象 的 名 字 呢 ? 比如 take 和 give, 我 也 个 知道 Linus 是 如 何 想 出 这 么 奇怪 的 








它 是 一 个 空 语句 。 什 么 都 不 执行 















































phore 和 spin lock flit 


| 解决 的 都 是 两 个 进程 的 互 斥 问 








Ry ms 2 的 信号 
) -能 被 | 进 
时 还 有 其 它 进程 处 于 等 待 状态 
再 调整 为 (-1,1)， 表 示 和 暂时 





个 各 村 进程， Pen 
将 count, sleepers 



































量 MN 


有 可 有 


























用 资源 "的 时 候 , 














找 





! 这 也 就 是 本 





于 获取 资源 ， 而 up0 














:的 ， dowo 
无 足够 资源 提供 ， 








题 ， 都 是 让 一 个 进程 退出 临界 





Linux2.6 协议 栈 源 代码 分 析 








区 后 另 一 个 进程 才 进入 的 方法 ， 不 过 sempahore 机 制 实行 























的 是 让 进程 暂时 让 出 CPU， 进 入 等 待 队列 等 待 


的 策略 ， 而 spin lock 实行 的 却 是 却 进 程 在 原 地 空转 ， 等 着 男 一 个 进程 结束 的 策略 。 





2.3.3.4.RCU 读 写 锁 





Linux2.6 还 引入 了 新 的 锁 机 制 RCU(Read-Copy Update) 的 实现 机 4 





















































该 数据 的 CPU 都 退出 对 共享 数据 的 操作 。 

























































































的 被 修 


BJ, RCU(Read-Copy Update)， 顾 名 
思 义 就 是 读 -拷贝 修改 ， 它 是 基于 其 原理 命名 的 。 对 于 被 RCU 保护 的 共享 数据 结构 ， 读 者 不 需要 获得 任 
何 锁 就 可 以 访问 它 ， 但 写 者 在 访问 它 时 首先 拷贝 一 个 副本 ， 人 然后 对 副 
Ceallback ) 机 制 在 适当 的 时 机 把 指向 原来 数据 的 指针 重新 指向 新 











本 进行 修改 ， 最 后 使 用 一 个 回调 
改 的 数据 。 这 个 时 机 就 是 所 有 3 





























因此 RCU 实际 上 是 一 种 改进 的 rwlock, 读者 几乎 没有 什么 同步 开 人 
因此 不 会 导致 锁 竞争 ， 内 存 延 迟 以 及 流水 线 停 滑 。 不 需要 锁 也 使 得 使 用 更 容易 ， 因 为 死 锁 问 题 就 不 需 








省 ， 它 不 需要 锁 , 不 使 用 | ue 














考虑 了 。 写 者 的 同步 开销 比较 大 ， 它 需要 延迟 数据 结构 的 释放 ， 复 制 被 修改 的 数据 结构 ， 它 也 必须 使 用 

















某 种 锁 机 和 I 同步 并 行 的 其 它 写 者 的 修改 操作 。 读 者 必须 提 化 





























一 个 信号 给 写 者 以 便 写 者 能 够 确定 数据 可 以 





被 安全 地 释放 或 修改 的 时 机 。 有 一 个 专门 的 垃圾 收集 器 来 探测 读者 的 信号 ， 一 旦 所 有 的 读者 都 已 经 发 送 
信号 告知 它们 都 不 在 使 用 被 RCU 保护 的 数据 结构 , 垃圾 收集 器 就 调用 回调 函数 完成 最 后 的 数据 释放 或 修 





改 操 作 。 RCU 与 rwlock 的 不 同 之 处 是 : 它 既 允许 多 个 








多 个 写 者 同时 访问 被 保护 的 数据 (注意 : 是 否 可 以 有 多 个 
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读者 没有 任何 同步 开销 ， 而 与 者 的 同步 开 销 则 取决 于 使 
因为 如 果 写 比较 多 时 ， 对 读者 的 性 能 提高 不 能 弥补 写 者 导致 的 损失 。 
































2.3.4 各 种 异步 手段 
2.3.4.1. Timer 〈 定 时 器 函数 ) 





作为 一 个 有 经 验 的 开发 者 ， 一 定 知 道 所 谓 的 定时 器 函数 ， 其 实 都 是 一 些 回 调 函数 而 已 ， 只 不 过 本 书 
中 涉及 到 的 定时 器 都 是 在 内 核 中 执行 ， 内 核 中 的 Timer 不 是 线程 
咏 该 做 任何 精细 的 工作 。 如 果 需 要 进一步 处 理 ， 那么 应 该 在 tasklet 里 完成 ， 因 为 tasklet 可 以 被 中 断 抢占 。 





































































































使 用 的 方式 : 
1) ”定义 一 个 timer_list{} 结构 比如 名 叫 atimer 
2) WH init_timer (&atimer) 





那么 它 是 如 何 使 用 的 呢 ? 其 实 创建 Timer 的 方式 有 好 几 利 














读者 同时 访问 被 保护 的 数据 ， 又 允许 多 个 读者 和 
行 访问 取决 于 写 者 之 间 使 用 的 同步 机 制 )， 
] 的 写 者 间 同 步 机 制 。 但 RCU APBETHNX rwlock， 












































， 它 们 运行 在 中 断 级 ， 所 以 timer 函数 不 




















h uE 








^» LH 3j 





篇 幅 的 原因 ， 我 只 举 一 个 在 协议 栈 经 常 








3) ”指定 atimerexpires 为 执行 周期 ，atimerfunction 为 回调 函数 ，timer.data 为 回调 函数 的 参数 


4) add_timer(&atimer) 














5) 当 atimerexpires 之 后 ， 执 行 回调 ， 并 且 在 回调 函数 中 再 执行 4)， 依 次 重复 























为 什么 要 采用 这 种 方式 而 非 其 它 ， 是 因为 我 们 要 保 说 














Timer © 




















run_timer. mu . run timers 











fE run timers 函数 中 ， 先 扫描 用 上 面 方法 创建 的 tmer， 然 后 














2.3.4.2. work queue 〈 工 作 队 列 ) 








其 内 在 机 制 是 怎么 运作 的 呢 ? 答案 是 : 软 中 断 ! 其 调 











用 关系 如 下 : 








FE， 这 种 Timer 的 优先 级 高 于 其 它 方式 创建 的 








Work queue 是 内 核 很 早 就 增加 的 功能 ， 类 似 于 pum 指定 一 


让 系统 在 适当 的 时 机 调用 它们 。 它 与 进程 调度 机 制 紧 密 
其 中 一 种 使 用 方法 如 下 : 





























ia — 


结合 ， 





























个 加 





扫描 其 它 的 mer. 





调 ， 然 后 挂 接 到 一 个 特殊 的 队列 ， 











实现 内 核 中 异步 事件 通知 机 制 。 

















1) ”定义 一 个 work: DECLARE WORK (my. work, my. event, callback func, NULL); 
2) WJH schedule work(my. work), 4 my. work 会 在 将 来 某 个 时 刻 被 处 理 





Schedule work 最 终 会 调用 wake up 函数 去 唤醒 以 queue 作为 等 

















程 。 要 注意 凡是 调用 这 个 函数 去 挂 接 work struct{} 时 ， 














应 该 会 发 现在 do_basic_setup 时 候 Linux 曾经 调用 init workqueue 
象 ， 刚 才 我 们 看 到 的 schedule_work 函数 就 是 把 my. work 挂 接 到 出 

















创建 了 一 个 内 核 线程 。 
init workqueu 的 内 部 过 程 如 下 : 








竺 队列 头 的 所 有 等 待 队列 对 应 的 进 

















实际 上 是 挂 到 一 个 全 局 队列 上 : keventd_wq。 读 者 

















s 去 创建 一 个 名 为 keventd_wq 的 全 局 对 
对 象 上 。 在 创建 keventd wq 的 时 候 就 





Linux2.6 协议 栈 源 代码 分 析 










































































init_waitqueue_head 



































4 wake_up_process 





\ 


那么 创建 出 来 的 worker. thread 的 内 部 如 下 : 


内 核 线程 是 


While 循环 ， 检查 CPU 
上 是 否 有 work 对 象 











worker_thread 

















keventd_wq = create workqueue 
/ create workqueue thread 
创建 多 个 线程， 
IREI a 
CPU 上 ， 
醒 线 程 
kthread_bind 











kthread_create 
(worker_thread) 














run_workqueue 

















While 循环 ， 
work_list 上 是 否 
work 对 象 


A dc 


RR : 











WEE 























有 














调用 每 一 个 work 定 
义 的 callback func 








234 


被 kernel thread [arch/i386/kernel/process] fi!) Œ ff], € 


[arch/i386/kernel/process. c] (RW fork 系统 调用 的 所 有 功能 都 是 由 它 


























下 面 是 一 些 最 常用 的 内 核 线 程 (你 可 以 用 ps -x 命令 ): 
PID COMMAND 
1 init 
3 ksoftirqd/0 
4 events/O 
6 kthread 
88  bdflush 
90  kswapdO 
读者 看 到 第 4 号 内 核 线程 events LEA ESP 








2.3.4.3. 通 知 链 


Linux 内 核 协议 栈 大 量 使 用 通知 链 这 种 技术 ， 用 
1) 定义 
2) 定义 


-notifier_call =my_event_process_func, 


Ba 























个 通知 块 struct 
































法 如 下 : 


又 通过 
实 


EX 
最 终 实 现 )。 


4 的 协议 栈 常 用 的 worker queue. 


个 通知 链 BLOCKING_NOTIFIER_HEAD(my_event_chain)。 


notifier_block my_event_block = { 


}; 


na 











十 调用 著名 的 clone 系统 调用 





3) 使 用 blocking_notifier_chain_register(my_event_block) 把 这 个 通知 块 挂 接 到 my. event. chain. 
4) 另 一 处 代码 调用 blocking_notifier_call_chain(my_event_chain), Jb A 3t — 


"5 


通 

















内 部 实现 是 这 样 
知 链 ， 然 后 以 此 执行 通知 块 上 的 回 








知 块 上 ， 对 应 的 处 理 函 





























数 就 会 处 理事 件 。 





调 函 数 ; 


Y 36 页 











ASA 





的 blocking notifier call chain 内 部 调用 notifier_call_chain， 这 个 函数 内 部 会 遍历 


有 件 发 送 到 对 应 的 


通 
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1. aint notifier call chain(struct notifier_block **n, unsigned long val, void *v) 
2. 4 
Bu int ret=NOTIFY_DONE; 
duvet NOt iir ier lolleyels snbi = kny 
57 
6. while (nb) 
EC 
Sr ret=nb->notifier_call (nb, val,v); 
如 果 执 行 环境 处 于 调试 中 断 中 ， 那 么 可 以 退出 遍历 
9) 5 if(ret&NOTIFY STOP MASK) 
ILO { 
ILIE return ret; 
IS } 
Ss nb-nb-»next; 
14. } 
15. return ret; 
Js y 





代码 段 2-14 notifier call chain 函数 


从 代码 上 看 ， 所 谓 通知 链 并 不 是 真正 的 “通知 ”方式 ， 而 是 直接 回调 方式 ， 这 就 要 保证 不 写 出 递归 
很 多 次 的 代码 ， 以 免 内 核 栈 被 撑 死 。 


2.4 ”虚拟 文件 系统 


VFS 虚拟 文件 系统 ) 在 Linux 及 Unix 家 族 中 是 非常 重要 的 概念 ， 可 以 说 它 是 操作 系统 的 骨架 。 
个 单独 的 技术 ， 比 如 设备 驱动 程序 、 文 件 、 管 道 其 至 我 们 要 介绍 的 协议 栈 ， 都 作为 划 附着 物 存在 于 多核 
中 。 不 过 限于 篇 幅 ， 我 就 不 一 一 阐述 了 。 与 任何 一 种 UNIX 一 样 ，Linux 并 不 通过 设备 标识 访问 某 个 文件 
系统 (如 DOS 那样 )， 而 是 将 它们 “捆绑 ”在 一 个 树 型 结构 中 ， 文 件 系统 安装 时 Gmount), Linux 将 它 挂 
到 树 的 某 个 节点 ( 即 目录 )， 文 件 系 统 的 所 有 文件 就 是 该 目录 下 的 文件 或 子 目 录 ， 直 到 文件 系统 印 载 
Cumount)， 这 些 文件 或 子 目 录 才 自然 脱离 。 
VFS 在 大 多 数 文档 中 作为 Virtual File System 的 缩写 , 我 觉得 还 不 足以 点 明 VES 的 作用 , 反而 觉得 用 
Virtual Filesystem Switcher 来 定义 VFS 可 能 使 你 更 明白 它 的 用 途 。 是 的 ， 就 是 虚拟 文件 系统 切换 器 。VFS 
B Cea 它 在 系统 启动 时 被 创建， 系统 关闭 时 注销 。VFS 的 作用 就 是 屏蔽 各 类 文件 系统 的 差异 ， 
给 用 户 、 应 用 程序 、 甚 至 Linux 其 他 管理 模块 提供 统一 的 接口 集合 。 管 理 VES 数据 结构 的 组 成 部 分 主要 
TERANA inode. 
为 什么 在 研究 协议 栈 的 书 中 要 介绍 VES We? 因为 Linx 将 网 络 接口 也 作为 一 个 文件 去 操作 ， 如 果 我 
们 对 文件 系统 不 了 解 , 那么 ee uus A 5 可 以 用 send( )， Rt uiae 
VES 是 物理 文件 系统 与 服务 i 它 对 Linux 的 每 个 文件 “KE 的 所 有 细节 进行 抽象 ， 
使 得 不 同 的 文件 系统 在 I Linux 核心 以 及 系统 中 运 和 TT 都 是 相同 的 。 一 种 
实际 的 文件 系统 。 它 只 存在 于 内 存 中 ， 不 存在 于 任 休 外 存 空 ii. VFS 在 系统 启动 时 建立 ， RAM 
消亡 。 
VES 使 Linux 同时 安装 、 支 持 许 多 不 同类 型 的 文件 系统 成 为 可 能 。VFS 拥有 关于 各 种 特殊 文件 
的 公共 界面 ， 当 某 个 进程 发 布 了 一 个 面向 文件 的 系统 调用 时 ， 内 核 将 调用 VES 中 对 应 的 函数 ， 这 个 函数 
处 理 一 些 与 物理 结构 无 关 的 操作 ， 并 且 把 它 重 定向 为 真实 文件 系统 中 相应 的 函数 调用 ， 后 者 用 来 处 理 那 
些 与 物理 结构 相关 的 操作 。 下 图 就 是 逻辑 上 对 VES 及 其 下 层 实 际 文件 系统 的 组 织 图 ， 可 以 看 到 用 户 层 只 
能 于 VFS 打交道 ， 而 不 能 直接 访问 实际 的 文件 系统 ， 比 如 EXT2、EXT3、PROC， 换 人 句 话 说 ， 就 是 用 户 
层 不 用 也 不 能 区 别 对 竺 这 些 真 正 的 文件 系统 ， 不 过 ，SOCKET 虽然 也 属于 VES 的 管辖 范围 ， 但 是 有 其 特 
殊 性 ， 就 是 不 能 象 打开 大 部 分 文件 系统 下 的 “文件 ”一 样 打开 socket， 它 只 能 被 创建 ， 而 且 内 核 中 对 其 
有 特殊 性 处 理 。 第 3 章 我 们 会 看 到 如 何 特殊 。 
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Linux2.6 协议 栈 源 代码 分 析 
int fd = open() int fd = socket() User 


(2) (1) (4) (3) 
Kernel 
| Y VFS | , 


EXT2/3 I FAT32 PROC | SOCKET 
Block Device Driver Memory Net Device 
Manager Driver 


图 表 2-10VFS 与 底层 各 模块 关系 


VES 描述 文件 系统 使 用 超级 块 和 inode 的 方式 ， 所 谓 超级 块 就 是 对 所 有 文件 系统 的 管理 机 构 ， 每 种 
文件 系统 都 要 把 自己 的 信息 挂 到 super. blocks 这 么 一 个 全 局 链表 上 。 内 核 中 是 分 成 2 个 步骤 完成 : 首先 
每 个 文件 系统 必须 通过 register filesystem 函数 将 自己 的 file system. type 挂 接 到 file systems 这 个 全 局 变 
量 上 ， 然 后 调用 kern mount 函数 把 自己 的 文件 相关 操作 函数 集合 表 挂 到 super blocks 上 。 每 种 文件 系统 
类 型 的 读 超级 块 的 例 程 〈get_sb) 〈 2.4.0 的 子 例 程 名 为 read, super) 必须 由 自己 实现 。 我 们 会 在 后 面 的 网 
络 文件 系统 初始 化 一 节 中 再 次 研究 初始 化 过 程 。 















































super_blocks super_block super_block 
















指向 后 面 的 
文件 系统 


list head s list 











VFS 管理 层 








具体 的 文件 系统 层 


—» ext3 fs type —) sock fs type 








: 指向 后 面 的 
next ”一 一 > 文件 系统 类 型 


file systems . *next 





























Ssockfs get sb 

















get sb pseudo 














Sockfs ops Sockfs ops sget 

















sock alloc inode 











Sock destroy inode 








图 表 2-11 super blocks #4 file systems 链表 


文件 系统 由 子 目 录 和 文件 构成 。 每 个 子 目 录 和 文件 只 能 由 唯一 的 inode 描述 。inode 是 Linux 管理 文 
件 系 统 的 最 基本 单位 ， 也 是 文件 系统 连接 任何 子 目 录 、 文 件 的 桥梁 。VFS inode 的 内 容 取 自 物 理 设备 上 的 
文件 系统 ， 由 文件 系统 指定 的 操作 函数 (i_op 属性 指定 ) 填 写 。VFS inode 只 存在 于 内 存 中 ， 可 通过 inode 








第 38 页 


Linux2.6 协议 栈 源 代 码 分 析 


ZH TUI IW. 

Linux 即 支 持 多 种 类 型 的 文件 系统 ， 又 保持 极 高 的 时 空 性 能 ， 究 其 原因 ， 在 于 各 种 复杂 缓存 的 作用 。 
比如 inode 缓存 。 随 着 文件 的 读 入 和 写 出 ， 这 些 文件 的 ipode 构成 一 条 链表 。 一 般 ， 通 过 对 inode 链表 的 
线形 搜索 ， 可 以 找到 任 一 表示 某 设 备 上 一 个 文件 或 子 目 录 的 inode. 从 效率 方面 ， VFS 为 已 分 配 的 inode 
构造 缓存 和 hash 表 。 

Linux 下 有 很 多 种 文件 系统 ， 可 以 通过 查看 文件 属性 推出 某 文 件 属 于 某 个 文件 系统 编制 ， 使 用 拆 s -la 
命令 ， 列 出 的 文件 信息 第 一 栏 有 这 样 的 表示 方法 : drwx。 这 是 文件 的 mode 字段 。 大 部 分 文件 系统 的 表 
面 区 别 大 致 如 下 : 

e 普通 文 H 

Mode 字段 的 第 一 个 字符 用 横 线 表示 ， 例 如 ,-rw-rw-Tw， 普 通 文件 包含 的 数据 内 核 并 不 感 兴趣 ， 所 以 
不 会 对 其 文件 内 容 改写 〈 用 户 改 写 是 另 一 回 事 ) 

e 目录 文件 

Mode 字段 的 第 一 个 字符 用 “表示 ， 例 如 ,drw----， 其 中 存放 着 文件 名 和 文件 缩 引 节点 之 间 的 关联 关 
系 。 

e hit 

Mode 字段 的 第 一 个 字符 用 表示， 例如 ,brw----， 这 些 文件 表示 一 个 便 件 设备 ， 通 常 读 取 这 些 设备 
的 数据 是 通过 块 操 作 进行 ， 比 如 磁盘 驱动 和 磁带 驱动 文件 。 这 些 文件 一 般 放 在 /dev 目录 下 。 而 且 用 户 不 
能 用 文本 查看 的 方式 打开 它们 。 

e 字符 设备 

Mode 字段 的 第 一 个 字符 用 “c 表 示 ， 例 如 ,crw----， 这 些 文 件 也 表示 一 个 硬件 设备 ， 通 常 读 取 这 些 设 
备 的 数据 是 通过 字 节 流 方 式 操作 进行 ,比如 终端 输入 设备 驱动 和 串口 驱动 文件 。 这 些 文件 一 般 也 放 在 /dev 
目录 下 。 用 户 也 不 能 用 文本 查看 的 方式 打开 它们 。 还 有 一 种 伪 设 备 或 设备 驱动 程序 也 是 字符 设备 ， 但 它 
们 并 不 表示 一 个 硬件 ， 只 是 用 于 特殊 目的 ， 比 如 某 个 程序 想 和 内 核 沟 通 ， 可 以 采取 这 样 的 方法 。 

e 链接 Cink) 

Mode 字段 的 第 一 个 字符 用 全 表示 ， 例 如 ,lrw----。 这 表示 这 个 文件 是 指向 另 一 个 文件 的 “指针 ”( 和 
内 存 中 的 指针 不 一 样 )。 

e 命名 管道 

Mode 字段 的 第 一 个 字符 用 “p' 表 示 ， 例 如 ,prw=---。 管 证 > 六 件 ， 一 般 用 来 做 进程 间 数 
据 通 信 ， 与 设备 文件 比较 相似 ， 它 的 工作 方式 是 FIFO。 

e ERT 

终于 到 了 和 我 们 比较 相关 连 的 文件 类 型 了 ， 其 Mode 字段 的 第 一 个 字符 用 “s’ 表 示 ， 例 如 ,srw----。 不 
过 ， 在 这 里 套 接 字 文件 是 用 来 给 不 同 机 器 间 不 同 进程 间 消息 交互 的 ， 似 乎 有 点 与 我 们 的 协议 栈 没 太 多 关 
系 。 





















































































































































































































































































































































































































































































































还 有 一 些 特殊 的 文件 , 不 代表 文件 也 不 代表 设备 , 只 是 用 来 提供 内 核 数据 和 地 址 空间 的 访问 , 如 /proc， 
这 个 反而 是 我 们 要 经 常 关注 的 文件 系统 。 














以 上 章节 是 理解 内 核 的 基础 ， 限 于 篇 幅 ， 不 能 再 讲 得 太 多 ,否则 喧 宾 村 主 。 这 里 要 强调 得 是 ， 以 上 每 
一 小 节 ，,， 都 可 以 写 出 很 多 页 甚至 单独 成 书 。 希望 有 兴趣 的 读者 自行 到 Internet 上 去 搜索 相关 内 容 。 以 下 和 
网 络 有 具体 实现 的 内 容 关 系 则 更 加 密切 。 





2.5 “网络 协议 栈 各 部 分 初始 化 


协议 栈 本 色 的 初始 化 这 部 分 在 2.6 早期 和 后 期 是 不 太一 样 的 ， 早 期 的 是 通过 函数 直接 调用 的 方式 ， 
后 期 更 加 依赖 于 使 用 inith 中 定义 的 初始 化 宏 来 进行 ， 即 放 入 特定 的 代码 段 去 执行 。 所 以 再 次 强调 关于 内 
核 镜像 研究 的 重要 性 。 我 们 先 给 出 初始 化 大 致 的 顺序 ， 大 家 记 住 这 个 顺序 就 对 初始 化 有 关 全 局 的 了 解 : 


© core initcall: sock init 



























































Q) fs initcall: inet init 
Q subsys initcall: net dev init 
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@ device _initcall: 设 备 驱动 初始 化 
上 面 那 句 话 揭示 了 初始 化 的 顺序 ， 读 者 可 以 看 到 源 代码 中 sock_init，inet_init， 设 备 驱 动 
































初始 化 是 分 





别 被 core_initcall、fs_initcall、subsys_initcall 、device_initcall 函 数 修 饰 的， 根据 前 文 对 初始 化 section 的 


























描述 ， 这 四 个 函数 放 在 不 同 的 section， 而 且 执 行 顺序 是 从 中 到 四 的 。 所 以 我 们 对 初始 化 的 
这 个 顺序 进行 。 切 记 ， 分 析 代 码 万 不 可 颠 三 倒 四 。 


2.5.1 网络 基础 系统 初始 化 























述 也 是 按照 








先 看 看 第 一 个 步 又 完成 什么 功能 :使 用 core_initcall 初始 化 宏 修饰 sock init 函数 ， 这 个 宏 指 定 了 














sock init 函数 放 在 级 别 为 1 的 代码 段 中 ， 也 就 是 说 它 的 执行 是 最 先进 行 的 一 部 分 (在 早期 的 代码 中 是 先 
从 start kernel 函数 开始 ， 调 用 kernel thread 启动 了 init 进程 〈 在 同一 个 文件 里 )， 再 调用 sock_init)。 此 





















































函数 只 是 分 配 一 些 内 存 空间 , 以 及 创建 了 一 个 sock_fs_type 的 文件 系统 ,在 do_basic_setup 中 调用 sock. init 
先 于 Internet 协议 注册 被 调用 ， 因 为 基本 的 socket 初始 化 必须 在 每 一 个 TCP/IP 成 员 协 议 能 注册 到 socket 









































层 之 前 完成 。 

ds Wold 2 ina sock init (vod) 

2 { 

Ss suum aLp 

4 

DE // 在 此 只 是 将 此 数组 初始 化 为 NULL， 真 正 的 初始 化 要 等 到 inet init 进行 
(5.5 for (i = 0; i < NPROTO; i++) 

Tes net_families[i] = NULL; 

Sr 














初始 化 sock SLAB cache.《〈 此 函数 内 部 没 做 什么 事 ， 只 是 对 若干 sysctl mem max 进行 赋值 ， 估 计 这 





行 注释 是 对 老 代码 的 解释 ，Linuxer 在 2.6.18 还 没 来 得 及 删 掉 。) 
































0 shine Oy static struct file system, type sock fs type 
此 函数 是 为 了 socket buffer KH slab cache. =i imes "sockfs" 
zb SUES atima ig .get sb =  sockfs get sb, 
12. .kill_sb= kill anon super, 
iie /* x 
14. * Initialize the protocols module. zu 
15。 */ Pe 
然后 为 socket 建立 伪 文 件 系 统 ， 第 一 步 是 设置 socket inode cache. 
16 . init inodecache(); 2 
abge register filesystem(&sock fs type); 
18. Sock mnt = kern mount(&sock fs type); 
19. // 当 执 行 do initcalls 时 才 真 正 初始 化 那些 特定 协议 协议 ， 比 如 执行 inet_init 
ZO ee 
2L s } 





代码 段 2-15 sock init 函数 


所 谓 基础 设施 ， 就 是 协议 栈 要 运作 所 需 的 基本 环境 ， 当 我 们 把 协议 栈 看 作 一 个 小 模块 时 
系统 中 其 他 部 分 打交道 。 比 如 内 存 管理 〈 在 skb_init 中 完成 )， 和 上 下 层 之 间 的 联系 〈 在 创建 
系统 的 过 程 中 完成 )。 本 小 节 上 只 是 引入 了 这 两 部 份 的 概念 ， 后 面 的 章节 会 一 一 介绍 。 


25.2 ”网 络 内 存 管理 
关于 内 核 中 网 络 部 分 的 内 存 管理 ， 凡 涉及 到 内 核 的 Linux 参考 书 都 会 提 及 ， 在 本 书 中 不 
特 书 ， 只 是 给 出 一 些 基本 的 概念 ， 读 者 只 要 能 基本 理解 网 络 内 部 内 存 的 管理 思路 即 可 。 
2.5.2.1。 sk buff 结构 
数据 包 在 应 用 层 称 为 data， 在 TCP 层 称 为 segment, YE IP 层 称 为 packet， 在 数据 链 路 层 
Linux 内 核 中 sk_buff{} 结 构 来 存放 数据 ， 在 不 同 的 层次 会 使 用 上 面 几 种 术语 来 称呼 ， 但 这 没 
区 别 。sk_buff{ } 在 INET Socket 和 它 以 下 的 层次 中 用 来 存放 网 络 接收 到 或 需要 发 送 的 数据 ， 













































































































































































， 它 必须 与 
socket 文件 


称 为 frame。 
有 什么 太 大 


因此 它 需 要 





设计 得 要 有 足够 的 扩展 性 ， 从 而 可 以 支持 不 同 层 次 、 相 同 层 次 不 同类 型 的 网 络 协议 。 另 外 ， 还 必须 高 效 、 


EU. 
网 络 内 存 管理 的 结构 : 
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sock 
sk_receive_queue sk_buff_head 
sk_write_queue —» prev | next 
Sk backlog 
PET sk buff sk buff sk. buff 
> Sk buff *next — — — ——— Sk buff *next — — — ——» Sk buff *next 
Sk buff *prev «—————— € sk buff*prev — «———————€ sk buff*prev 
sk buff head "list « Sk buff head "list < | Sk buff head "list 
sock*sk OO 
h 
nh 
地 址 往 这 个 方向 增长 
mac | | | nnn emm > 
Y 
WI MAC IP head pen vd data 
char *head — k 
char data 2 
data 的 指向 是 可 变 的 ， 最 开 
"m 始 和 head 指 向 同一 个 地 址 ^ 
图 表 2-12 sock 和 sk buff 的 关系 
从 上 图 中 看 到 一 个 问号 ， 表 示 data 这 个 指针 指向 的 位 置 是 可 变 的 ， 它 有 可 能 随 着 报 文 所 处 的 层次 而 
变动 。 当 接收 报 文 时 ， 从 网 卡 驱动 开始 ， 通 过 协议 栈 层 层 往 上 传送 数据 报 ， 通 过 增加 skb-data 的 值 ， 来 
逐步 剥离 协议 首部 ， 而 要 发 送 报 文 时 ， 各 协议 创建 sk_buff{ }， 在 经 过 各 下 层 协议 时 ， 通 过 减少 skb>data 
的 值 来 增加 协议 首部 。 不 仅 有 这 种 手段 ， 我 们 还 可 以 通过 h,nh,mac 这 三 个 联合 指针 ， 我 们 可 以 访问 到 这 
些 协议 首部 ， 从 而 利用 其 提供 的 有 效 信息 。 
先 看 到 的 是 sk_buff_head{ } 结 构 ， 它 是 每 个 数据 流 的 “ 头 ” 凡是 能 保存 数据 的 地 方 ， 都 用 这 个 结构 
来 指向 真正 的 数据 。 
struct sk_buff_head 
/* These two members must be first. */ 




















/* 这 两 个 成 员 必须 放 在 前 面 。 原 因 在 于 对 sk_buff_head HE 
结构 做 类 型 的 强人 


BPR TC, BOSDK FE */ 





























struct sk buff *next; 
struct sk buff  *prev; 
NECS qlen; /* 该 sk_ buff head 结构 引导 的 一 个 链表 的 节点 的 个 数 * / 


he 


行 操作 的 时 候 ， 可 以 用 











sk_buff 








代码 段 2-16 sk buff head 结构 
下 面 这 个 结构 才 是 真正 指向 数据 区 的 “指针 集合 ”。 

















其 中 head 成 员 指向 真正 的 数据 区 。 




















Struct Ske loci jq 








/* These two members must be first. */ 
etruct sk burt snert; 
SII Slk_lowseie *prev; 
struct sk buff head *list; 
struct sock * sky 
struct timeval stamp; 
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struct net_devic *dev; 
struct net devic *real dev; 
下 面 是 关于 第 AJ EHEX,HH h 表示 这 个 联合 的 名 字 ，( 其 实 我 觉得 可 以 叫 th, 即 transpPortheader) 



































union { 
struct tcphdr "irme 
struct udphdr *uh; 
Skree Lemans ^ em 
struct igmphdr *igmph; 
struct iphdr *ipiph; 
struct ipv6éhdr *ipv6h; 
unsigned char *raw; 

} h; 

下 面 是 关于 第 3 层 /网 络 层 首 格式 ， 就 是 传说 中 的 IP 头 ， 所 以 联合 的 名 字 叫 nh, 即 network header 

union { 
struct iphdr ero bir 
struct ipv6éhdr *ipv6h; 
struct arphdr *arph; 
unsigned char *raw; 

































































) nh; 
下 面 就 是 MAC 层 的 头 
union { 


struct ethhdr *ethernet; 
unsigned char *raw; 
} mac; 








以 上 这 种 安排 也 体现 了 报 文 各 层 头 部 的 逻辑 关系 
这 个 是 路 由 cache 的 指针 ， 后 面 的 章节 会 着 重 介绍 









































struct dst_entry sast; 
这 个 是 xfrm 相关 的 成 员 ， 不 必 关 心 


struct sec_path SSOP 


/* 
* This is the control buffer. It is free to use for every 

* layer. Please put your private variables there. If you 

* want to keep them across layers you have to do a skb clone() 
* first. This is owned by whoever has the skb queued ATM. 

AU. 

char cb[48]; 


unsigned int len, 
data len, 
mac len, 
csum; 
unsigned char toce (hr. 
cloned, /* 指示 此 sk_buff{} 是 否 被 “克隆 ”过 。*/ 
当 接 收 一 个 报 文 时 ， 创 建 一 个 sk_puff{}， 然 后 根据 地 址 类 型 指定 该 sko 实际 属于 哪 一 种 的 报 文 类 型 ， 然 后 上 


























ND 


















































































































































层 协议 栈 采取 相应 的 处 理 方式 处 理 该 skb ， 见 下 面 的 表 
pkt_type, 
ip summed; 
一 Ou EN 
可 以 用 eth. type trans 函数 获取 protocol 的 值 ， 如 果 以 太 网 头 大 于 1536, 那么 就 返回 以 太 网 的 h_proto 
值 ， 下 面 时 常用 值 
unsigned short protocol, 
4 1H 说 明 
ETH_P_802_2 4 真正 的 802.2 LLC， 当 报 文 长 度 小 于 1536 时 
ETH_P_LOOP 0x0060 | 以 太 网 环 回报 文 
ETH P IP 0x0800 IP 报 文 
ETH P ARP 0x0806 | arp 报 文 
BOND ETH P LACPDU | 0x8809 | rac 协议 报 文 
ETH P. 802109 0x8100 VLAN 4k X. 
ETH_P_MPLS_UC 0x8847 MPLS 单 播报 文 
void (*destructor) (struct sk buff *skb); 
#ifdef CONFIG NET SCHED 
EEUU tc index; /* traffic control index */ 





m 
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#endif 





FÉ 








DXL ABER, YE alloc_skb() 函数 中 (创建 sk buff) 为 了 提高 性 能 ， 只 将 上 面 














而 下 





清 0， 











四 的 部 分 可 以 后 





HITE HE o 

















unsigned int 


truesize; 





atomic_t 

unsigned char *head, 
*data, 
jeu JL; 
*end; 


users;/* 每 引用 或 “克隆 ”- 











各 部 分 全 部 


























结构 的 时 候 ， 都 要 上 自 加 1 */ 








dX sk buff( ) 














len 是 





如 果 


skb_clone0) 函 数 完成 一 次 “克隆 ”操作 ， 





代码 段 2-17 sk_buff 


包括 data 指向 的 数据 和 end 后 面 的 分 片 的 数据 的 总 长 ， 而 data len 
只 包括 分 片 的 数据 的 长 度 。 而 truesize 的 最 终 值 是 len--sizeof(struct sk. buff). 

一 个 sk_buff{} 是 “克隆 ”得 来 的 ， 
“克隆 ”过 后 的 sk_buff{ } 不 存在 于 链表 中 ， 也 不 和 某 一 个 特定 的 


指数 据 包 全 部 数据 的 长 度 ， 





























结构 





那么 它 的 clone 成 员 和 源 socketf} 的 clone 成 员 都 是 1。 通 过 
































































































































INET socket 相关 联 ， 通 过 检查 成 员 users 可 以 知道 这 个 sk. buff 结构 是 否 被 “克隆 ”过 。“ 克 隆 ” 数 据 包 
的 好 处 在 于 可 以 提高 数据 使 用 的 效率 。 
sk buff.pkt type 是 指 该 数据 包 的 类 型 ， 定 义 如 下 : 
表格 2-1 
4 fü 说 明 
PACKET HOST 0 该 报 文 的 目的 地 是 本 机 
PACKET BROADCAST 1 广播 数据 包 ， 该 报 文 的 目的 地 是 所 有 主机 
PACKET_MULTICAST 2 组 播 数据 包 
PACKET_OTHERHOST 3 到 其 他 主机 的 数据 包 , 在 VLAN 接口 接收 数据 时 有 重要 的 
作用 
PACKET_OUTGOING 4 它 不 是 “发 送 到 外 部 主机 的 报 文 ”， 而 是 指 接收 的 类 型 ， 这 
种 类 型 用 在 AF_PACKET 的 套 接 字 上 ， 这 是 Linux 的 扩展 
PACKET_LOOPBACK 5 | MC/BRD 的 loopback 帧 《用 户 层 不 可 见 )》 
为 了 使 用 套 接 字 缓 冲 区 ， 内 核 创 建 了 两 个 后 备 高 速 缓存 (lookaside cache), ， 它 们 分 别 是 


skbuff head cache 和 skbuff fclone cache, [JO 
TR AFP Op A HORA 2 er A 
sizeof(struct sk_buff), 




















Fava, 2 





中 有 几 个 sk. buff 已 被 使 用 











区 别 在 于 skbuff head cache 在 创 
可 以 容纳 任意 数目 的 struct sk_buff， 而 skbuff_ 
存 区 域 大 小 是 2*sizeof(struct sk_buff)+sizeof(atomic_t), 
一 对 sk buff 是 克隆 的 ， 即 它们 指向 同一 个 数据 























所 使 用 到 的 所 有 的 sk_buff 结构 都 是 从 这 两 个 后 备 高 
建 时 指定 的 单位 内 存 区 域 的 大 小 是 
fclone_cache 在 创建 时 指定 的 单位 内 
它 的 最 小 LARUE N strcut sk. buff 和 一 个 引 
缓冲 区 ， 引 用 计数 值 是 0,1 或 2， 表 示 这 一 对 













































































创建 


如 果 要 在 skbuff_fclone_cache 中 创建 ， 可 以 调用 
struct sk. buff 的 成 员 head 指向 一 个 已 分 配 的 空 


间 的 尾部 ， 





























数据 的 尾部 ， 这 两 个 值 














个 套 接 字 缓 冲 区 ,最 常用 的 操作 是 alloc skb,'E skbuff head cache 中 创建 一 个 struct sk, buff, 





这 两 个 成 员 














随 























旧 针 从 空间 创建 之 后 ， 就 不 能 被 修改 。data 指向 分 配 空 
着 网 络 数据 在 各 层 之 间 的 传递 、 修 改 ， 














JEERCCON NES D M) IE: x 


_alloc_skb， 通 过 特定 参数 进行 。 
间 的 头 部 ， 该 空 | 间 用 于 承载 网 络 数据 ， end 指向 该 空 
间 中 数据 的 头 部 ，tail 指向 
会 被 不 断 改 动 。 所 以 ， 这 四 个 指针 指向 



































































































































同 的 一 块 内 存 区 域 的 不 同位 置 ， 该 内 存 区 域 由 __alloc_skb 在 创建 缓冲 区 时 创建 。 

那 指向 的 这 块 内 存 区 域 有 多 大 呢 ? 一 般 由 外 部 根据 需要 传 入 。 外 部 设 定 这 个 大 小 时 ， 会 根据 实际 数 
据 量 加 上 各 层 协 议 的 首部 ， 再 加 15( 为 了 处 理 对 齐 ) 传 入 ， 在 __alloc_skb 中 根据 各 平台 不 同 进行 长 度 向 上 
对 齐 。 但 是 ， 我 们 另外 还 要 加 上 一 个 存放 结构 体 struct skb_shared_info 的 空间 ， 也 就 是 说 end 并 不 真正 指 
向 内 存 区 域 的 尾部 ， 在 end 后 面 还 有 一 个 结构 体 struct skb_shared_info， 下 面 是 其 定义 : 

struct skb_shared_info{ 
atomic_t dataref; /引用 计数 。 
unsigned short nr_frags; /数据 片段 的 数量 。 
unsigned short tso size; 
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unsigned short 
unsigned short 
unsigned int 


struct sk buff *frag list; // 数 据 片 段 的 链表 。 
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tso_segs; 
ufo_size; 
ip6_frag_id; 








skb_frag_t frags|IMAX SKB FRAGS] /每 一 个 数据 片段 








的 长 度 。 


}; 
这 个 结构 体 存放 分 隔 存储 的 数据 片段 ， 将 数据 分 解 为 多 个 数据 片段 是 为 了 使 用 分 散 /聚集 VO. 


如 果 是 在 skbuff_fclone_cache 中 创建 , 则 创建 一 个 struct sk. buff Ja, 还 要 # 























2 — 3» JAN 

















巴 紧 邻 它 的 一 个 struct sk. buff 


的 fclone 成 员 置 标志 SKB_FCLONE_UNAVAILABLE， 表 示 该 缓冲 区 还 没有 被 创建 出 来 ， 同 时 置 自 己 的 
fclone 4 SKB_FCLONE_ORIG， 表 示 自 己 可 以 被 克隆 。 最 后 置 引 用 计数 为 1。 






















































































最 后 ，truesize 表示 绥 存 区 的 整体 长 度 ， 置 为 sizeof(struct sk_buff)+ 传 入 的 长 度 ， 不 包括 结构 struct 
skb_shared_info 的 长 度 。 
内 存 管理 函数 
在 sk_buff{} 中 的 4 个 指针 data, head. tail; end 初始 化 的 时 候 ，data、head、tail 都 是 指向 申请 到 的 
数据 区 的 头 部 ，end 指向 数据 区 的 尾部 。 在 以 后 的 操作 中 ， 一 般 都 是 通过 data 





2.5.2.2. 














可 用 的 数据 区 的 开始 和 结尾 。 而 head 和 end 就 表示 sk. buff 中 存在 的 数据 包 最 











表格 2-2 









































和 tail 来 获得 在 sk_buff 中 














大 可 扩展 的 空间 范围 。 








alloc_skb 


申请 一 人 




















sk_buff{ } 结 构 ， 并 且 其 中 申请 了 真正 的 数据 区 。 
































kfree_skbmem 


释放 sk_buff{} 数 据 区 ， 还 要 根据 fclone 是 否 清除 sk buff( A 





kfree_skb 


封装 了 kfree_skbmem， 也 能 释放 skb 





dev_alloc_skb 


在 真正 要 





发 送 数据 的 时 候 , 要 针对 底层 的 协议 申请 出 一 个 sk_buff{} 





空间 来 





存放 需要 发 送 的 数据 包 。 这 个 函数 内 部 调用 
alloc_skb(length+16,...) 函 数 , 在 这 里 , 除了 length 的 长 度 空间 之 外 ， 


























还 要 多 申 
留 的 空间 
头 后 面 的 





























件 头 使 用 ， 





请 16 个 字 节 的 长 度 。 这 是 为 了 存放 以 太 网 上 硬件 头 而 预 
o RFC 规定 以 太 网 人 硬件 长 度 是 14 个 字 节 ， 但 为 了 让 硬件 




















IP 头 和 32 位 地 址 对 齐 ， 就 申请 了 16 个 字 节 的 空间 给 硬 





空 出 两 个 字 节 。 
































skb_put 将 数据 添加 到 现 有 数据 尾部 ，tail 指针 往 右 移 ，len 要 增加 移动 的 数 
量 
skb_push JU data 指针 往 左 移 ， 增 加 报 文 头 ， 只 是 把 data 减 去 sizeof(struct 报 














通过 skb- 











文 头 )， 同 时 len 加 上 这 个 值 ， 这 样 ， 在 逻辑 上 ,skb 包含 报 文 头 了 ， 














>h 或 nh 或 mac 还 能 找到 它 





skb_headroom 


得 到 该 sk. buff 数据 区 头 部 的 空闲 区 间 大 小 











skb_tailroom 


` 

















导 到 该 sk. buff 数据 区 尾部 的 空闲 区 间 大 小 







































































skb_reserve 衬 出 一 部 分 空间 在 数据 区 的 头 部 

skb_pull 把 data 指针 往 右 移 ， 剥 掉 报 文 头 ， 只 是 把 data 加 上 sizeof(struct 报 
文 头 )， 同 时 len 减 去 这 个 值 ， 这 样 ， 在 逻辑 上 ,skb 已 经 不 包含 报 文 
头 了 ， 但 通过 skb->h 或 nh 或 mac 还 能 找到 它 

skb_trim 把 tail 指针 往 左 移 ， 剥 掉 数 据 区 的 尾部 数据 ，len 减 去 移动 的 数量 

下 面 介绍 关于 sk. buff 链表 的 操作 函数 : 





























skb. insert 在 链表 中 插入 一 个 sk_buff 结构 ， 不 涉及 sk buff head 结构 
skb_appned 在 链表 中 指定 一 个 sk_buff{} 后 插入 一 个 sk buff, t vb X 

















sk_buff_head 结构 





skb_queue_head 在 链表 头 


增加 一 个 sk_buff 节点 





skb_queue_tail 在 链表 尾 ] 


增加 一 个 sk. buff 节点 





skb_unlink 


从 链表 中 





删除 一 个 sk_buff 节点 





Skb_dequeue 


从 链表 头 


取出 一 个 sk_buff 节点 ， 并 且 删 除 掉 此 节点 











skb dequeue tail | 在 链表 尾 











取出 一 个 sk. buff 节点 ， 并 且 从 链表 中 删除 








本 和 














只 分 析 





下 skb 是 如 何 分 配 的 。 一 般 来 讲 ， 一 个 套 接 字 缓 冲 区 总 是 忆 
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了 调用 alloc skb 函数 创建 一 个 套 接 字 缓 冲 区 ， 套 接 字 本 身 还 要 对 sk buff 进行 一 些 操作 ， 以 及 设置 自身 
的 一 些 成 员 值 。 下 面 我 们 来 分 析 这 个 过 程 。alloc_skb UH] T. alloc skb 函数 ， 记 住 ， 其 传 入 的 最 后 一 人 
































































































































































































































参数 fclone 总 是 0。 不 过 总 有 例外 ，alloc_skb_fclone 函数 传 入 的 是 1， 那么 预示 着 内 存 的 分 配 是 从 clone 

区 分 配 。 

is fee 

2 *  alloc skb 申请 一 块 网 络 缓冲 区 

Slo * Qsize: 要 申请 的 大 小 

4. *  Qgfp mask: 申请 人 码 

os * @fclone: 是 否 申请 一 个 可 被 克隆 的 cache。 如 果 是 可 被 克隆 的 ， 那 么 还 将 申请 一 个 待 克 隆 的 skb 

Ga 的 

To * Allocate a new &sk buff. The returned buffer has no headroom and a 

8. * tail room of size bytes. The object has a reference count of one. 

Or * The return is the buffer. On a failure the return is $NULL. 
当 在 中 断 里 申请 缓冲 区 时 必须 传 入 GEP. ATOMIC 作为 gfp. mask 的 参数 ， 这 意味 着 不 允许 等 待 并 且 使 用 紧急 pool 
中 的 缓冲 区 

dg. “/ 

11. struct sk_buff *__alloc_skb(unsigned int size, gfp_t gfp_mask, 

LZ int fclone) 

TE 


14. kmem_cache_t *cache; 

15. struct skb_shared_info *shinfo; 
is Sieber Sie loi “aioe 

I, uss "eue 





















































于 fclone 总 是 0， 所 以 肯定 是 在 后 者 中 分 配 空间 
18. cache = fclone ? skbuff_fclone_cache : skbuff_head_cache; 
19 
DOs /* hh ska bute erik) Ves Sle SR eee ~/ 
21. skb = kmem cache alloc(cache, gfp mask & ~__GFP_DMA); 
22 
23. /* 这 里 才 是 分 配 上 图 中 data 的 数据 区 .Size must match skb add mtu(). */ 











24. size = SKB DATA ALIGN(size); 


Chay, oeElee kmalloc(size + sizeof(struct skb shared info), gfp mask); 
26 

27. memset(skb, 0, offsetof(struct sk buff, truesize)); 

28. skb->truesize = size + sizeof(struct sk buff); 


29. atomic set(&skb-»users, 1); 

30. skb->head = data; 

31. skb->data = data; 

32. skb->tail = data; 

33. skb-»end = data + size; 

34. /* make sure we initialize shinfo sequentially */ 






















































































35. shinfo = skb shinfo(skb); 
36. atomic set(&shinfo-»dataref, 1); Generic Segmentation Offload (GSO): 
37. shinfo->nr_frags = 0; 协议 栈 的 效率 提高 一 个 策略 : 尽 可 能 晚 的 推 i 
S8 c Shinto=>gs0_ size = 0; (segmentation)， 最 理想 的 是 在 网 卡 驱 动 里 分 
a ee = 0; 里 把 大 包 〈superpackeb 拆 
E er EE 配 好 的 内 存 中 重组 各 段 ， 然 后 交 给 网 卡 
41. shinfo->ip6_frag_id = 0; TRALTDED RSLS j 
42. shinfo->frag_list = NULL; 
43. 
44. if (fclone) { 
定义 一 个 指针 指向 内 存 中 紧邻 它 的 下 一 个 节点 
45 Siew oka ue eam = e «re dip 
46. cus Od e wiecilemie see = ((ehe@umie 9.552) cl ST T 
这 个 标志 的 值 是 1， 而 缺 省 的 是 0， 即 SKB_FCLONE_UNAVAILABLE， 说 明正 常情 况 下 skb 不 是 clone 的 ， 
KS SUEkfree skbmem 的 行为 完全 不 一 样 。 另 一 个 值 SKB_FCLONE_CLONE 是 2 
47. skb->fclone = SKB FCLONE ORIG; 
48. atomic set(fclone ref, 1); 
置 下 一 个 单元 的 标志 
49. child->fclone = SKB_FCLONE_UNAVAILABLE; 
Gc 3 
Sil, (xS 
52. return skb; 
53. nodata: 


54. kmem cache free(cache, skb); 











55. skb = NULL; 
Ss (Gio OwA 
SEE 





代码 段 2-18  alloc skb 函数 


注意 ，sk_buff{} 来 自 skbuff head cache 或 skbuff fclone cache, data 区 来 自 普通 的 内 核 区 。 
下 面 解释 一 下 alloc_skb_felone 的 操作 。 此 函数 申请 一 个 skb (sk_buffrdata)， 但 是 这 个 skb 申明 自己 
是 可 以 被 克隆 的 。 那 么 内 存 中 看 到 的 是 这 样 ; 


skbuff_fclone_cache 




































































p> 
sk_buff 
n SKB_FCLONE_ORIG 
> sk_buff 
n+1 
e > sk buff SKB FCLONE UNAVAILABLE 
sk buff 














图 表 2-13 skbuff fclone cache 中 的 内 存 操作 


这 便 是 原本 sk buff 的 操作 结果 。 用 户 真正 需要 的 skb 被 设置 为 克隆 原本 的 标志 , 而 且 在 这 个 sk. buff 
的 后 面 一 个 区 域 被 设置 为 SKB_FCLONE_UNAVAILABLE (0)。 当 用 户 需要 clone 一 个 skb 时 ， 就 调 月 
skb_clone， 把 克隆 原本 的 skb_buff 后 面 的 区 域 设 置 为 CLONE 副本 标志 。 
H XE 4 SE skb_buff 不 可 以 被 克隆 时 ， 那 么 就 从 skbuff head cache 中 申请 内 存 ， 比 如 下 图 的 n 一 1 块 。 E 
而 且 一 一 读者 请 注意 一 一 如 果 某 skb buff 确实 是 可 以 被 克隆 ， 但 在 它 之 前 已 经 有 一 块 区 域 已 经 不 是 
SKB FCLONE UNAVAILABLE 了 ， 也 许 是 SKB_FCLONE_ORIG， 也 许 是 SKB_FCLONE_CLONE， 那 
么 还 是 得 从 skbuff head. cache 中 分 配 内 存 。 
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skbuff fclone cache skbuff head cache 
> n” 
sk. buff sk. buff SKB. FCLONE UNAVAILABLE 
n SKB FCLONE ORIG n 
o> sk buff e— > sk. buff SKB. FCLONE UNAVAILABLE 
n+l 

sk. buff SKB FCLONE CLONE sk. buff 
sk buff sk buff 


























图 表 2-14 不 同 skb cache 中 的 内 存 操作 








/* 

* Free an skbuff by memory without cleaning the state. 
i 

void kfree skbmem(struct sk buff *skb) 

{ 

struct sk_buff *other; 

atomic_t *fclone_ref; 


Skb release data(skb); 
. Switch (skb->fclone) { 
. case SKB FCLONE UNAVAILABLE: 


PH! Hn|'O-0-1o0! 40 N HP 


Hoe. 
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kmem cache free(skbuff head cache, skb); 
break; 


. case SKB FCLONE ORIG: 


fclone ref = (atomic t *) (skb + 2); 

如 果 引 用 值 大 于 0， 说 明 还 有 副本 存在 ， 那 么 什么 都 不 做 ， 返 

if (atomic_dec_and_test (fclone_ref) ) 
kmem_cache_free(skbuff_fclone_cache, skb); 

break; 





Es] 




















。 如 果 没 有 副本 了 ， 就 释放 原本 内 存 




















。 case SKB FCLONE CLONE: 


fclone ref = (atomic t *) (skb + 1); 

other = skb - 1; 

把 自己 的 fclone 标志 简单 地 设置 为 0 即 可 ， 而 不 用 释放 ， 因 为 本 来 也 没有 “申请 ”内 存 
/* The clone portion is available s fast-cloning ol: 
skb->fclone = SKB FCLONE UNAVAILABL 
































如 果 所 有 副本 和 原本 都 不 存在 了 ， 那 么 REEL. 这 隐 仿 说 明了 原本 曾经 尝试 过 删除 自己 (但 未 能 完 4 











请 参考 前 儿 行 代码 )。 
if (atomic dec and test(fclone ref)) 
kmem cache free(skbuff fclone cache, other); 
break; 
}; 





sk sk bof et 


代码 段 2-19 kfree skbmem 函数 


好 ， 到 此 可 以 得 出 skb_clone 和 skb_copy 的 区 别 : 前 者 基本 在 skbuff. fclone cache 中 分 配 内 存 ， 除 非 



































定 要 对 一 个 不 是 可 以 被 克隆 的 对 象 进 行 克 隆 ， 那 么 才 会 在 skbuff head cache 中 分 配 内 存 ， 而 上 且 















































1， 没 有 涉及 到 真正 数据 区 (data). H 
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; 后 者 必定 在 skbuff head cache ! 
































不 仅 复 制 sk_buff{}， 而 且 复 制 了 数据 区 。 
以 上 是 单纯 得 skb 操作 ， 每 一 个 上 层 协议 都 实现 了 自己 对 skb 得 特殊 处 理 。 比 如 TCP， 如 果 检 查 到 


竺 发送 数据 报 没有 传输 层 协议 头 〈 不 是 传输 层 的 tcp 或 udp 数据 报 )， 套 接 字 创建 缓冲 区 的 函数 是 










































































Sock_alloc_send_skb， 对 于 非 传输 层 协议 包 ， 不 使 用 分 散 /聚集 IO， 所 以 ， 置 data_len 为 0。 









































上 层 协 议 利 用 这 些 内 部 函数 ， 在 自己 本 层 内 实现 自己 的 内 存 申 请 和 释放 函数 。 比 如 说 TCP, 
函数 分 别 是 tcp_alloc_pskb 和 tcp. free skb 函数 : 




















它 的 相 





static inline struct sk_buff *tcp_alloc_pskb(struct sock *sk, int size, int mem, int 


gfp) 
{ 
struct sk buff *skb = alloc_skb(size+MAX_TCP_HEADER, gfp); 
不 仅 分 配 分 配 skb， 还 要 把 属于 当前 sock 的 之 前 分 配 的 内 存 大 小 相 加 ， 因 为 TCR 的 报 文 很 有 可 能 被 分 段 
if (skb) { 
skb->truesize += mem; 
if (sk->sk_forward_alloc >= (int) skb->truesize | | 
tcp mem schedule(sk, skb->truesize, 0)) { 
Skb reserve(skb, MAX TCP HEADER); 
return skb; 





























. kfree skb(skb); 


. return NULL; 
s J 





代码 段 2-20 tcp alloc pskb 函数 
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1. static inline void tcp_free_skb(struct sock *sk, struct sk_buff *skb) 
2. A 





Sia tcp sk(sk)-»queue shrunk = 1; 

仅仅 释放 当前 skb， 不 一 定 sock 的 报 文 已 经 被 清除 
4. Sk-»sk wmem queued -= skb->truesize; 
Ds Sk-»5sk forward alloc += skb-»truesize; 
6. — kfree skb(skb); 
Ja dj 





代码 段 2-21tcp free skb 函数 


在 这 里 先 给 出 对 skb 的 报头 基本 操作 ，Linux 用 几 种 数据 结构 分 别 代表 不 同 层 次 的 报 文 头 : ethhdr{ }. 
iphdr{}、udphdr{}、tcphdr{ } 。 











udp_push_pending_frames 


ip_push_pending_frames 








eth_header 
ethhdr | iphdr udphdr 
sk_buff>head 
UDP header 
eth header IP header 
TCP header 




















tcphdr | 


tcp_transmit_skb 


图 表 2-15 各 协议 层 函数 对 网 络 报 文 头 的 理解 


上 图 即 是 协议 栈 中 各 层次 的 代表 函数 处 理 各 部 分 的 示意 图 。 不 过 不 管 如 何 转 ，sk_buff 了 head 总 是 指 
向 数据 的 最 开始 。 我 们 介绍 内 存 管理 也 就 到 此 为 止 了 ， 本 书 余下 部 分 不 想 再 这 个 方面 纠缠 了 ， 因 为 我 本 
来 就 不 想 让 我 自己 累 着 。 


2.5.3 ”网 络 文件 系统 初始 化 
在 linux 系统 中 ，socket 属于 文件 系统 的 一 部 分 ， 网 络 通信 可 以 被 看 作对 文件 的 读 取 。 这 种 特殊 的 文 
件 系统 叫 sockfs。 上 一 节 中 提 到 在 sock_init 函数 中 先 调 用 init inodecache， 为 创建 socket 文件 系统 做 好 内 
存 准备 。 不 过 要 注意 的 是 在 Linux 内 核 中 存在 init inodecache 多 个 定义 ， 但 都 是 静态 型 ， 即 只 能 由 该 .c 
文件 中 的 函数 调用 ， 在 socketc 中 ， 就 定义 了 这 么 一 个 函数 ， 所 以 sock init 调用 就 是 下 面 这 个 ， 代 码 如 


























































































































F: 

1. static int init_inodecache (void) 

2. 4 

Sis Sock inode cachep = kmem cache create("sock inode cache", 
4. Sizeof(struct socket alloc), 

55 0, SLAB_HWCACHE_ALIGN | SLAB_RECLAIM_ACCOUNT, 

[30 1nit once, NUDL)s 

yo MEME // 错 误 处 理 

Sr return 0; 

Sls Ji 





代码 段 2-22 init inodecache 函数 


为 文件 系统 准备 inode 缓存 部 分 了 ， 下 面 进入 初始 化 文件 系统 。 
”首先 是 调用 register_filesystem(&sock_fs_type); 把 文件 系统 类 型 注册 到 file systems 链表 上 ， 然 后 调用 
kern_mount(&sock_fs_ -type); 把 该 文件 系统 注册 到 super T5. 

在 系统 初始 化 的 时 候 要 通过 kern. mount 安装 此 文件 系统 。 所 谓 创建 一 个 套 接 字 就 是 在 sockfs 文件 系 
统 中 创建 一 个 特殊 文件 。super_block 里 面 有 一 个 字段 s_op 是 用 来 指 问 某 文件 系统 内 部 的 支持 函数 ， 这 个 
字段 的 类 型 为 super_operation。 这 个 结构 定义 了 12 个 函数 指针 ， 这 些 指针 是 要 让 VES 来 调用 的 。 因 此 这 
是 VES 和 文件 系统 之 间 的 一 个 接口 ， 经 由 这 层 接口 ， 超 级 块 可 以 控制 文件 系统 下 的 文件 或 目录 。 有 趣 的 
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是 ， 在 2.4.0 内 核 中 ， 这 个 结构 只 有 10 个 函数 指针 ， 新 增 的 2 个 偏偏 被 sockfs_ops 使 用 ， 而 其 他 的 大 部 
分 函数 指针 都 没有 被 用 到 。 要 注意 的 是 这 个 结构 不 是 用 户 层 操作 socket 内 部 的 接口 函数 集合 。 有 的 读者 
可 能 有 编写 设备 驱动 程序 的 经 验 , 知道 如 果 要 实现 某 型 设备 的 驱动 基本 上 要 提供 一 个 基于 file_operations{ } 
结构 的 全 局 变量 ， 用 户 层 的 open, read, write 等 操作 都 会 映射 到 这 个 结构 里 的 成 员 函 数 。 但 是 在 这 里 ， 
sockfs_ops 不 是 提供 这 样 的 功能 的 ， 它 是 专门 给 super. blocks 用 来 创建 inode 的 。 对 于 file_operations{}, 
我 们 会 在 介绍 socket O 系统 调用 的 时 候 作 出 详细 说 明 。 
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Static struct super operations sockfs ops = { 
.alloc inode = sock alloc inode, 

.destroy inode -sock destroy inode, 

.statfs = simple statfs, 

}; 




















那么 这 个 数据 结构 是 如 何 挂 到 super_blocks 上 的 呢 ? 现在 看 看 sock_mnt = kern_mount(&sock_fs_type); 
内 部 发 生 了 什么 : 





kern_mount 

















vfs_kern_mount 











图 表 2-16 kern_mount 函数 调用 树 
看 看 do kern mount 内 部 代码 ， 这 个 函数 在 不 同 内 核 版 本 下 不 太一 样 ， 但 基本 操作 一 样 : 





Tr 











MOSCU CEVES MOUNE x 
11. do_kern_mount (const char *fstype, int flags, const char *name, void *data) 
i2. 4 



































ES. struct file system type *type = get fs type(fstype); 
14. struct super block *sb = ERR PTR(-ENOMEM); 

ILS) struct vfsmount *mnt; 

Les int error; 

Lys 

4 PUTA // 出 错 处 理 

19. 

207 mnt = alloc_vfsmnt (name); 

ih esas // 出 错 处 理 

225 

23n if (data) { 

24. secdata = alloc secdata(); 

Po EET // 出 错 处 理 

2c 

Dale error = security_sb_copy_data(type, data, secdata); 
DLE cee // 出 错 处 理 

ZY) } 

SOF 

Cu sb = type-»get sb(type, flags, name, data); 

Sr eae 

Be static int sockfs_get_sb(struct file_system_type 
34. mnt-»mnt sb = sb; *fs type, int flags, const char *dev name, void *data, 
955 mnt-»mnt root = dget(sb-»s root); |[Struct vfsmount *mnt) 
36. mnt-»mnt mountpoint - sb-»s root; 

SIIR mnt->mnt_parent = mnt; 

384 up write(&sb-»s umount); 

OM put filesystem(type); 

40. return mnt; 

41. 

"Lr rus // 出 错 处 理 

are 





代码 段 2-23 do kern mount 函数 


type->get_sb 实际 上 就 是 sockfs_get_sb, ， 我 们 在 前 面 介绍 虚拟 文件 系统 中 已 经 看 到 它 的 身影 了 。 现 
在 研究 它 的 实现 ， 它 就 是 把 sockfs ops 所 属 的 super block 结构 挂 接 到 全 局 链表 super blocks 中 。 通 过 这 
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么 一 个 操作 ， 形 成 了 前 面 的 图 中 显示 的 三 元 组 : <super_block，sock_fs_type，sockfs_ops>。 这 样 ， 协 议 栈 
与 用 户 层 的 连接 关系 基本 确定 。 


些 内 容 可 以 参考 





























sockfs_get_sb 






















































































get_sb_pseudo(...sockfs_ops...) 
sget 
在 此 创建 socket 所 属 的 
Super_block 
alloc_super 
; ; 在 此 将 super_block 
list_add_tail = 
(super_blocks) cus aaa 
new_inode 
d_alloc 

















d_instantiate 











图 表 2-17 sockfs get sb 函数 调用 树 











new_inode 先 创 建 一 个 inode， 然 后 将 它 设置 为 根 节 点 。 再 创建 一 个 dentry 结构 ， 与 之 对 应 起 来 ， 这 



































其 它 关 于 VES 的 资料 。 不 管 怎样 ，Linux 的 socket 文件 系统 算是 建立 起 来 了 。 
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每 种 套 接 字 种 类 


2.5.4 网 


初始 化 第 二 个 大 步骤 就 是 使 用 fs_initcall 初始 化 宏 修饰 inet init 函数 ， 它 初始 化 和 协议 本 身 相 关 的 东 
西 。 第 二 步 才 真正 涉及 到 “ 栈 ” 的 概念 。 到 此 我 们 才 开 始 真正 的 网 络 协议 的 初始 化 。 在 这 之 前 必须 知道 
一 些 概念 




















日 是 我 们 还 是 不 能 完全 不 再 肆 见 它 ， 在 下 一 章 我 们 还 会 温习 之 。 


EU 
































话 和 套 接 字 类 型 。 大 家 都 知道 所 谓 的 套 接 字 都 有 地 址 族 ， 实 际 就 是 套 接 字 接 口 的 种 类 ， 





























类 有 自己 的 通信 寻 址 方法 。Linux 将 不 同 的 地 址 族 抽象 统一 为 BS 套 接 字 接口 ， 应 用 程序 






































关心 的 只 是 BSD 套 接 字 接 口 ， 通 过 参数 来 指定 所 使 用 的 套 接 字 地 址 族 。 


Linux 内 核 














中 为 了 支持 多 个 地 址 族 ， 定 义 了 这 么 一 个 变量 : static struct net proto. family 


*net_families[NPROTO], NPROTO 等 于 32， 也 就 是 说 Linux 内 核 支 持 最 多 32 种 地 址 族 。 不 过 目前 已 经 


BHT, RAITH H 
有 的 PF PACKET (17)， 即 对 网 卡 进 行 操作 的 选项 。 它 们 都 通过 如 下 的 结构 来 定义 ， 这 个 结构 没有 太 多 















































日 的 不 外 平 就 是 PF_UNIX (1)、PF_INET (2)、PF_NETLINK (16), Linux 还 有 一 个 自 


















































bales 
struct net_proto_family { 
E. aim family; /* 这 个 值 就 是 地 址 族 的 标识 */ 
Se sling (*create) (struct socket *sock, int protocol); 
P SES 
Bo Me 
在 PF INET 地 址 族 之 内 ，BSD 套 接 字 还 定义 了 多 种 我 们 熟知 套 接 字 类 型 ， 如 流 (stream), BHR 


Cdatagram)， 原 始 包 Craw) 等 


结 


存 
统 





为 了 文 持 多 下 




















中 套 接 字 类 型 ， 内 核 中 是 有 多 种 相 应 的 全 局 变量 与 之 对 应 , 而 不 是 只 有 一 种 。 HAN proto{} 























JWH, A inet m } 结 构 类 型 的 ， 有 inet_protosw{} 结 构 类 型 的 ， 有 proto_ops{} 结 构 类 型 的 ， 


四 者 的 关系 我 会 在 下 面 介 
Hu mey 
在 就 不 需要 网 络 协议 了 ， 而 是 在 没有 网 络 设备 存在 的 时 候 ， 照 样 可 以 完成 网 络 的 工作 ， 只 不 过 网 络 系 
物理 上 只 存在 于 





























Je — 在 Linux 系统 中 并 不 是 说 网 络 设备 不 

















F 本 机 一 台 机 器 中 而 已 。 
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tcp. v4. init( ) 和 tcp. init( ) 的 不 同 : 前 者 什么 都 不 做 〈 即 不 在 本 书 的 讨论 范围 内 )， 而 后 者 才 是 用 来 初 
始 化 TCP 协议 需要 的 各 项 hash 表 和 sysctl_xxx 全 局 配置 项 的 。 

arp_init 完成 系统 neighbour 表 的 初始 化 。 

ip rt init 初始 化 IP 路 由 表 rt. hash. table; 





























































































































inet_init 
&tcp_prot 
调用 3 次 
Bui &udp. prot 
proto register() ucp-pro 
&raw prot 




















Sock register(&inet family ops) 














&icmp. protocol 




















调用 3 次 
inet_add_protocol 





&udp_protocol 














&tcp_protocol 

















SOCK_STREAM 







































































循环 调用 3 次 
inet_register_protosw > inetsw_array[] SOCK_DGRAM 
SOCK_RAW 
arp_init 
ip init 














ip rt init 

















inet initpeers 




















tcp v4 init(&inet family ops) 

















tcp init 




















icmp init(&inet family ops) 




















dev add pack(&ip packet type) 











图 表 2-18 inet init 调用 树 


一 进入 初始 化 就 调用 proto_register3 次 ， 先 后 为 tep. udp, raw 的 proto{} 结 构 申 请 空间 并 将 其 挂 到 一 
个 全 局 链表 proto list 上 。 这 三 个 proto 全 局 变量 非常 重要 ， 是 连接 传输 层 和 IP 层 的 纽带 。 


































































































is GAGE Too IEC jou: = 1 

ue . name E CEES 

So .owner — THIS MODULE, 

4. „close = tcp close, 

Sys .connect = tcp v4 connect, 
6. „accept = inet csk accept, 
d roO = qp) 3ieXeAE dL, 

So ^ gab = 1G 4) CENSOR 
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9. .sendmsg = tcp_sendmsg, 

10. .recvmsg = tcp_recvmsg, 

Wis WIS 18 = tcp v4 do rcv, 
12. .hash = tcp v4 hash, 

IS, gere exotic, = tcp v4 get port, 

14. pp 

ibs cue Tx. wel qe = 1 

2 .name = Viet 

3 .owner — THIS MODULE, 

4. „close = udp close, 

5E cConmesis = ip4 datagram connect, 
6 .disconnect = udp disconnect, 

7 OCE = qo. exu 

8 .Sendmsg = udp sendmsg, 

9. .recvmsg — udp recvmsg, 

10. .sendpag = udp sendpage, 
lak lo = udp_queue_rcv_skb, 
125 hash = udp v4 hash, 


ee aS 


14. .get port 


= udp v4 unhash, 
= udp v4 get port, 








i15. Pg 

tt oOo ownrote NE 

2 .name = "RAW", 

iS .owner — THIS MODULE, 

4. „close — raw close, 

5. .connect = ip4 datagram connect, 
6 .disconnect = udp disconnect, 
7 a 3loxene 1L = raw ioctl, 

8 Sip — raw init, 

9. .setsockopt = raw setsockopt, 
10. .getsockopt = raw getsockopt, 
11. .sendmsg — raw sendmsg, 

12. .recvmsg — raw recvmsg, 

Se oloni = raw_bind, 

14. .backlog rcv = raw rcv skb, 
IS. meum = raw v4 hash, 


16. .unhash 
IE MEN E 


— raw v4 unhash, 





图 表 2-19 tcp prot, udp prot, raw. prot 结构 




















再 看 sock, register 函数 ， 它 把 inet family. ops 塞 入 net. families 数组 中 ， 这 个 inet. family ops 是 如 下 


定义 的 ; 











static struct 
-family = 
suredgbe = 


. Owner 


he 


net_proto_family inet_family_ops = { 
Ig JEN ae; 

inet_create, 

THIS MODULE, 








代码 段 2-24 inet family ops 结构 

















以 上 的 结构 是 应 付 从 上 到 下 方向 的 关系 : 用 户 创建 socket 时 ， 先 指定 INET 地 址 族 ， 在 指定 套 接 字 
类 型 。 换 名 话说 这 是 数据 流 发 送 的 流向 。 





下 面 这 个 结构 是 应 付 从 下 到 上 方向 即 数据 流 接收 的 关系 。 大 家 都 知道 ，socket 层 必 须 区 分 哪 一 个 用 














户 应 该 接收 这 个 











包 ， 这 叫做 socket 解 复 用 。 下 面 是 初始 化 第 二 个 方面 的 必要 步骤 : 注册 接收 函数 。 
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/* 
* Add a protocol handler to the hash tables 

i 

// 在 inet init 函数 中 调用 了 3 次 ,分 别传 入 icmp_protocol, udp protocol, tcp protocol 
// 这 三 个 实体 内 容 如 下 : struct inet_protocol 

JF ( 


t protocol tcp protocol = int (*handler)( sk buff *skb); 


static struct ine 
andler C void(*err handler)(sk buff *skb, u32 






info); 
int no policy; 


= [— We} tee) <<] ny Gal Hs. CO Io) S 
Foo o 5 o g Go OP ate D 
. 


PRPPPRPP 
YAO (QN 
5 5 d 6 站 


}; 


. Static struct inet protocol udp protocol = 








.no policy = 1; 





}; 
. Static struct inet protocol icmp protocol =\{ 

I. sie 
ZO, “ff 
21. int inet_add_protocol (struct inet_protocol *prot, unsigned char protocol) 
225 4 
23. Int hash, ret, 
24. 
25. hash = protocol & (MAX INET PROTOS - 1); 
26 
27. if (inet protos[hash]) ( 
28 ret d 
29. } else ( 
30 inet protos[hash] = prot; 
ae ret = 0; 
32. ] 
Sp 
34. return ret; 


w 
ol 


} 





代码 段 2-25inet_add_protocol 函数 


在 这 段 代码 相关 的 内 容 中 ， 我 们 特别 要 记 住 那 三 个 结构 的 接收 函数 指针 : tep_v4_rev, udp_rev, 
icmp. rcv 我 们 将 在 数据 接收 过 程 中 详细 介绍 这 几 个 函数 。 





















TCP， 这 是 TCP/IP 协议 实现 的 基本 部 分 ,去 
掉 一 个 永久 协议 是 不 允许 的 。 所 以 ，UDP 和 TCP 是 不 能 unregistered。 此 机 制 由 2 个 函数 和 一 个 维护 注 
册 协 议 的 数据 结构 组 成 。 一 个 负责 注册 协议 ， 另 一 个 负责 注销 。 每 一 个 注册 的 协议 都 放 在 一 个 表 里 ， 叫 
协议 切换 表 。 表 中 的 每 一 个 入 口 是 一 个 inet_protosw 的 实例 。 先 看 基于 这 个 结构 产生 的 三 个 实例 : 


























oo 
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il /* Upon startup we insert all the elements in inetsw array[] into 

2 * the linked list inetsw. 

E "i 

4 static struct inet protosw inetsw array[] - struct inet protosw { 

Er NE struct list head list; 
6 { 

7 .type = SOCK_STREAM, 两 个 字段 形成 查找 key 

8. SOOO ON IPPROTO_TCP, socket 系统 调用 的 第 二 个 参数 . 
de ES = &tcp_prot, J ushort type; 

E eee eer eee e int protocol; /* L4 的 协议 号 
12. See A 0, struct proto *prot; 
ie .flags = INET_PROTOSW_PERMANENT, SEDUCE sero dps “TOPS; 
14. h To M 
m 发 送 或 接收 报 文 时 是 否 需要 校 验 和 
16. { char no_check 

17. .type = SOCK, DGRAM, uchar flags; 

18. .protocol = | IPPROTO UDP, H 

iL) ES = &udp. prot, 

20 inet d jJ 

21 

Ze UDP_CSUM_DEFAULT, 

VS INET PROTOSW PERMANENT, 

24. Ie 

2/51. 

29. { 

27 SOCK_RAW, 

28 IPPROTO IP,  /* wild card */ 

29 &raw prot, 

30 . &inet dgram ops, | 

31. SRE emer —CAPONET-RAW, ——— 

3:20 .no check = UDP_ CSUM DEFAULT, 

So .flags = INET_PROTOSW_REUSE, 

34. } 

SERPENT 





代码 段 2-26 inet protosw 结构 


也 就 是 说 在 inet init 中 循环 调用 了 inet register protosw 三 次 。 传 入 的 参数 就 是 上 面 列 出 的 
inetsw_array[ ] 的 每 个 单元 。 分 别 对 应 TCP. UDP. RAW 协议 。 这 inetsw 将 来 会 在 创建 socket 的 时 候 用 
到 。 





















































1. #define INETSW ARRAY LEN (sizeof(inetsw array) / sizeof(struct inet protosw)) 
25 

3. void inet register protosw(struct inet protosw *p) 

üs d 

Su Struct Jig. lacxewol "dee 

6. struct inet protosw *answer; 

Ts “ALONE oo ESAP PrO COCON 

8. struct list head *last perm; 在 ik 省 初始 化 时 只 AT 
9. i : E 
ORE = ]， 但 如 果 加 
11 

















13. answer = NULL; 
14. last perm = &inetsw[p->type]; 





























15. list for each(l1h, &itetsw[p-^typel) { SOCK STREAM - 

LE, answer = list_entry struct inet_protosw, list) SOCK_DGRAM 

iy s SOCK RAW 

is} /* Check only the non-wild m ep" 

T9. if (INET PROTOSW PERMANENT & ans -»flags) { SOCK PACKET 

20. if (protocol == answer-»protocol m 

2 c break; 

BA last perm = lh; #define SOCK_MAX (SOCK_PACK 
23% } struct list_head inetsw[SOC 
24 

25% answer = NULL; 

29. Ih 








Bi? YORI 





27. if (answer) 


28 . goto out_permanent; 

29. list_add_rcu(&p->list, last perm); 
SO reo utr 

Sil. 

32. synchronize net(); 

Shek 

34. return; 

35. e .// 错 误 处 理 ， 退 出 

SIC 





代码 段 2-27 inet register protosw 函数 

















现在 研究 inet stream, ops, inet dgram ops 的 结构 : 









































1. struct proto ops inet stream ops = { 

2 .family = PF_INET, 

bos .release - inet release, 

4. .bind = inet bind, 

oe -connect = inet stream connect, 

Crs .Socketpair = sock_no_socketpair, 

To .accept = inet_accept, struct proto_ops { 

ge -POHNE Leo int family; 

©). Mure cn augen sleere Il 

OR .listen = inet_listen, int (*release) (socket *sock); 

"PE . shutdown = inet shutdown, int (*bind) (socket *sock, sockaddr *myaddr, 
T2 .setsockopt = inet_setsockopt, int sockaddr_len); 

13. .getsockopt - inet getsockopt, int (*connect) (socket *sock, sockaddr *vaddr, 
14. .Sendmsg = inet sendmsg, int sockaddr len, int flags); 

d 5- .recvmsg = inet recvmsg, int (*accept) (socket *sock, socket *newsock, 
16 .mmap = Sock no mmap, int flags); 

iy .Sendpage = tcp sendpag uint (*poll) (file *file, socket *sock, 

18 F poll_table_struct *wait); 

NBS) int (*ioctl) (socket *sock, uint cmd, ulong 
20. struct proto ops inet dgram ops = { arg); 

Zu .family = PF INET, int (*listen) (socket *sock, int len); 

22a .release = inet_release, int (*sendmsg) (kiocb *iocb, socket *sock, 
255 .bind = inet_bind, sghdr *m, size_t total_len); 

24. .connect = inet dgram connect, int (*recvmsg) (kiocb *iocb, socket *sock, 
Zoe .Socketpair = sock_no_socketpairjmsghdr *m, size_t total_len, int flags); 

26 .accept = sock_no_accept, ssize t(*sendpage) (socket *sock, page *page, 
21 .getname = inet getname, int offset, size t size, int flags); 

28 .poll - datagram poll, }; 

29) SIOC = ne tll 

30 .listen = sock_no_listen, 

SL .Shutdown = inet shutdown, 

gor .setsockopt - inet setsockopt, 

IS .getsockopt = inet_getsockopt, 

34. .Sendmsg = inet sendmsg, 

Sir .recvmsg = inet recvmsg, 

SiGe .mmap = sock_no_mmap, 

Sais .sendpage = inet sendpage, 

385 Jp 

39.5 x 

40. * 对 于 SOCK RAW sockets, BRS WA udp poll 外 其 它 必 须 和 inet dgram ops 一 样 

ZU 9f 

42. static const struct proto ops inet sockraw ops = { 

43. .family = PF INET, 

44. .owner = THIS MODULE, 

45, .release = inet release, 

46. vb rnd = inet bind, 

47. .connect = inet dgram connect, 

ZO ME c: 

BOs yf 











代码 段 2-28 inet stream ops. inet dgram ops. inet sockraw ops 结构 
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以 上 是 关于 协议 栈 框架 的 搭建 ， 看 起 来 似乎 完美 了 ， 但 是 对 于 IP 层 接收 流程 ， 则 还 不 够 。 因 为 对 于 
发 送 过 程 ， 直 接 调用 IP 层 函 数 ， 而 对 于 内 核 接 收 过 程 则 分 为 2 层 : 上 层 需 要 有 一 个 接收 函数 解 复 用 传输 
协议 报 文 ， 我 们 已 经 介绍 了 ， 而 下 层 需要 一 个 接收 函数 解 复 用 网 络 层 报 文 。 对 报 文 感 兴趣 的 底层 协议 目 
前 有 两 个 ， 一 个 是 ARP， 一 个 是 IP， 报 文 从 设备 层 送 到 上 层 之 前 ， 必 须 区 分 是 IP 报 文 还 是 ARP RL. 
然后 才能 往 上 层 送 。 这 个 过 程 由 一 个 数据 结构 来 抽象 ， 叫 packet_type{}, 
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1. struct packet_type { 

2 unsigned short type; /* This is really htons(ether type). i. 
dev 是 指向 我 们 希望 接收 到 包 的 那个 接口 的 net device 结构。 如 果 是 NULL， 则 我 们 会 从 任何 一 个 网 络 
接口 上 收 到 包 

dx struct net device *gdev; /* NULL is wildcarded here */ 

4. int (*func) (struct sk buff *, struct net device *, struct packet type *); 

5: void *af_packet_priv; 
如 果 某 个 packet_typef{} 被 注册 到 系统 中 ， 那 么 它 就 被 挂 接 到 全 局 链表 中 (有 2 个 ， 见 下 面 的 解说 )， 
list 就 是 代表 链表 节点 

6: struct list_head Ss 

Js um 








代码 段 2-29 packet type 结构 定义 


inet init 函数 最 后 调用 了 一 个 dev. add pack 函数 ， 不 仪征 inet init 函数 调用 ， 有 一 个 很 很 重要 的 模块 
也 调用 了 它 ， 就 是 ARP 模块 ， 我 们 会 在 后 面 的 章节 看 到 它 是 如 何 调用 dev add pack 函数 的 。 
















































































dL P 
Zr * For efficiency 
Sis "i 
4. 
5. int netdev nit; 
6. 
LE Ls 
8. * dev add pack - add packet handler 
OR * @pt: packet type declaration 
IO, ow 
dL iL * Add a protocol handler to the networking stack. The passed &packet_type 
12. * is linked into kernel lists and may not be freed until it has been 
13. * removed from the kernel lists. 
ways Os 
15. * This call does not sleep therefore it can not 
16 * guarantee all CPU's that are in middle of receiving packets 
Ly * will see the new packet type (until the next received packet). 
ae Ey static struct packet_type arp_packet_type 
zm bra dev add pack(struct Oy VERE .type = -gonstant htons(ETH P-ARP), 
2 int hash; func = EE 
DOM 

S .type = | constant htons(ETH P IP), 

.func ip rcv, 
}; 

XF arp 和 ip 报 文 都 不 是 ETH_P_ALL， 所 以 挂 到 了 ptype base 这 个 hash X. 
24. if (pt->type == htons(ETH P ALL)) { 
297 netdev_nit++; 
26. list add rcu(&pt-»list, &ptype all); 
Bites ) else ( 
25. hash = ntohs(pt->type) & 15; 
29. list add rcu(&pt-»list, &ptype base[hash]); 
SOR } 
Sus } 





代码 段 2-30 dev add pack 函数 


报 文 处 理 函 数 放置 在 一 个 链表 中 ， 这 是 因为 多 个 协议 可 能 为 同一 种 包 注册 不 同 的 处 理 函 数 。 由 于 多 
个 协议 可 能 接收 同一 种 包 ， 所 以 它们 在 复制 包 之 前 不 能 修改 其 中 的 内 容 。 在 Linux 内 核 中 IP 协议 栈 很 少 
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有 协议 是 ETH_P_ALL 类 型 的 ， 即 接收 所 有 报 文 ， 因 为 这 会 影响 转发 性 能 。 








传说 中 Linux 有 一 个 能 抓 包 的 特性 ， 方 法 如 下 : fd = socket(PF_PACKET, mode, htons(ETH_P_ALL)); 
如 此 这 般 就 能 把 所 有 的 报 文 收 上 来 。 实 际 上 内 核 就 是 把 一 个 type 为 ETH_P_ALL 的 prot hook 挂 接 到 
ptype_all 链表 上 ， 其 报 文 处 理 函 数 为 packet_tcv， 感 兴趣 的 读者 可 以 在 研究 完 socket 系统 调用 的 章节 后 再 


去 看 af_packet.c 中 的 packet. create $ žo 





综合 前 面 分 析 的 初始 化 过 程 ， 那 么 网 络 协议 栈 的 框 染 基本 搭 起 来 了 ， 从 上 民 
个 全 局 变量 完成 了 INET 层 和 传输 层 的 搭建 工作 。 记 住 ， 在 这 
而 他 层 则 没有 全 局 变量 去 代表 ， 只 有 函数 ， 我 们 将 在 以 后 的 过 程 中 对 























net_proto_family: 
net families[ ] 































































































EE 都 还 只 是 INET 











其 解剖 。 

















中 可 以 看 到 代码 中 用 数 








RUPES EIER ERA, 


















































































































































> > | > 
poe = pa [pg | 
= I I&£ y = 32 个 单元 
Family ls z 398 Z| 32 个 单元 
u zimirix 
mix id zii 
O Ald 
list_head: ~=. : 
Inetsw[ ] ul inet family ops 
m 
o v 
zid oa ere 
type cma Z B| ee 只 | 10 个 单元 
r2 f 
EX m^ 4 
一 
inet_protosw: ^ 
inetsw array[] | 
proto_ops 
protocol inet_stream_ops inet_dgram_ops inet_sockraw_ops socket{ } 
list head: 3 个 单元 
proto_list 
proto | cp. prot > udp. prot > raw. prot sock{ ) 
net protocol 人 
net_protocol : 
inet_protos| ] m> icmp_protocol 
IPPROTO_IP:0 -一 tcp. protocol 
IPPROTO ICMP:1 oS Se 
256 个 > udp_protocol sk buff( ) 


单 IPPROTO TCP:6 
元 
IPPROTO_UDP:17 


























图 表 2-20 协议 栈 的 具体 形式 
综 上 所 述 ， 我 们 可 以 推断 出 在 本 节 初 始 化 的 过 程 中 出 现 的 各 种 重要 的 数据 结构 之 间 的 关系 了 ， 正 如 




















上 图 所 示 ， 从 无 往 右 看 ， 是 用 户 界 面 的 角度 ， 分 别 代表 了 标识 一 个 套 接 字 的 三 元 组 : < 地 址 族 ， 类 型 ， 具 
体 协 议 >， 正 好 是 调用 socket 系统 函数 的 3 SBR. WA! 
结构 。 从 右 到 左 看 ， 是 内 核 中 3 个 重要 的 数据 结构 ， 从 j 

















Ne 
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这 3 个 数据 结构 ， 我们 就 可 以 创建 sock{} 
上 到 下 分 别 是 socket(]. sock(]. sk buff(], IEW 





是 数据 流 的 连接 通道 。 比 如 ， 发 送 报 文 时 ， 数 据 会 由 socket{ } 通 过 相应 的 proto_ops{} 把 数据 传 给 sock{}, 
sockf{} 又 通过 proto{ } 把 数据 传 到 sk. buff; 反 过 来 ， 当 收 到 报 文 时 ，sk_buff{} 通 过 net_protocol{} 把 数据 传 
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给 sock{}， 后 者 又 通过 protof} 把 数据 传 给 socket{ } ，socket{} 最 后 把 数据 传 给 用 户 层 。 通 过 这 几 个 重要 











数据 结构 和 变量 ， 大 家 是 不 是 看 出 了 所 谓 
所 以 ， 这 几 个 数据 结构 结合 非常 紧密 
Linux 的 内 核 源 代码 要 小 心 啊 。 





2.5.5 初步 了 解 路 由 系统 


Linux 内 核 中 采用 了 FIB (Forward Information Base) 这 个 名 词 代 替 了 Routing Database， 原 
可 能 是 不 想 和 应 用 层 的 路 由 数据 库 发 生 概念 上 的 冲突 





























“ 栈 ” 的 模式 ? 


























， 不 过 比较 恶心 的 是 它们 的 名 字 比 较 容 易 混 淆 ， 所 以 说 ， 












































的 
发 


因 不 详 。 
xs 吧 。 但 是 Linux 内 核 还 是 有 一 个 叫做 RouteTable 的 


数据 结构 的 ， 不 过 ， 它 只 是 FIB 的 一 份 cache 而 已 ， 其 关系 如 同 计算 机 中 内 存 和 CPU cache 的 关系 。 系 

















统 中 路 由 一 般 采 取 的 手段 是 ， 先 到 路 由 缓存 中 查找 表 项 ， 如 果 能 查找 到 ， 那 么 叉 


















































作为 路 由 的 规则 ;如果 查 不 到 ， 那 么 就 到 FIB 中 根据 规则 换算 出 来 ， 并 且 增 加 
将 项 目 添加 进去 。 所 以 在 研究 Linux 代码 时 ， 应 该 注意 这 一 点 ， 不 能 抓 着 RouteTable 不 放 而 忽视 了 FIB。 























FIB 是 内 核 中 最 重要 的 路 由 结构 。FIB 存放 着 用 
外 的 应 用 程序 通过 路 由 socket 从 内 核 中 获取 路 (信息 o MECE TKR, UA 



































直接 将 对 应 的 一 项 取 















































项 新 的 ， 在 路 由 缓存 





























来 给 本 地 流量 和 外 发 报 文 做 内 部 的 路 由 , 也 能 让 内 























的 设备 信息 。 通 过 对 FB 数据 的 查找 和 换算 ， 一 定 和 g 够 获得 路 由 一 个 地 址 的 方法 。 当 报 文 进入 路 由 系 
时 ， 系 统 用 报 文 的 目标 地 址 和 最 精确 的 网 络 掩 码 比 较 ， 如 果 不 匹 配 ， 就 转 到 男 一 个 较 精 确 的 掩 码 入 口 

















其 比较 。 当 完成 比较 后 ，IP EE SUE 














































































































Linux 能 被 配置 成 支持 多 个 FIB/ 路 1 






















































































节点 的 路 






































是 路 由 表 ，Linux 的 路 由 表 就 是 FB 表 。 




















26 Linux 设备 管理 





设备 初始 化 是 我 们 要 分 析 的 第 三 和 第 四 个 大 步骤 ， 这 个 部 分 要 涉及 到 一 些 设备 驱动 的 背景 知识 。 








由 于 于 这 个 系统 相 "EA, Rx 







































































de, 在 这 里 , FB 表 就 是 路 由 表 , 一 个 FB 表 包 含 多 个 路 由 条 目 
以 下 的 语 境 中 ， 你 可 以 把 “FIB 表 ” 当 作 一 个 数据 库 的 代名词 。 缺 省 情况 下 只 配置 有 2 个 表 ( 即 2 个 数 
据 库 )。 在 大 多 数 情况 下 ，Linux 内 核 不 需要 基于 策略 的 路 由 ， 特 别 是 租 入 式 系统 。 所 以 内 核 不 需要 配置 
多 个 表 。 如 果 这 样 ， 有 两 个 预定 义 的 全 局 指针 指向 两 个 表 ， 一 个 是 local table, 一 个 是 main table, local 
表 存 放 着 到 本 机 分 配 的 地 址 的 路 由 上 ， 比如 分 配给 网 络 接口 设备 的 地 址 和 环 司 地 址 ， main 表 存 放 到 外 部 








也 主机 的 “direction” 到 路 由 快 表 中 ， 并 沿 着 这 条 路 径 发 送 数据 。 





出 
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上 层 的 地 址 信息 和 底层 


统 
和 





























Egi 























分 的 初始 化 放 到 下 一 章 去 介绍 ， 在 此 时 ， 上 只 需 记 住 了 FB 表 











还 有 ， 是 ip_init 函数 调用 了 ip_rt_init 去 初始 化 路 由 系统 。 















































设备 管理 的 目标 是 能 对 所 有 的 外 设 进行 良好 的 读 、 写 、 控 制 等 操作 。 但 是 如 果 众 多 设备 没有 一 个 














一 的 接口 ， 则 不 利于 开发 人 员 的 工作 。 因 此 Linux X 









































统一 接口 。 由 此 可 见 ， 设 备 文件 的 相关 概念 是 设备 管理 的 最 基础 部 分 。 








要 让 操作 系统 感知 到 设备 的 存在 ，， 




















必须 提供 一 个 注册 机 制 ， 使 操作 系统 能 识 
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统 


7 类 似 UNIX 的 方法 ， 使 用 设备 文件 来 实现 这 个 


别 设备 对 应 的 驱动 程序 ， 












































目前 采用 基于 主 、 次 设备 号 的 方式 来 管理 设备 。Linux 习惯 上 将 设备 文件 放 在 目录 /dev 或 其 子 目录 之 下 ， 
































设备 文件 名 通常 由 两 部 分 组 成 ， 第 一 部 分 通常 较 短 ， 可 能 只 有 2 或 3 个 字母 组 成 ， 例 如 普通 硬盘 如 IDE 








接口 的 为 “hd” SCS 硬盘 为 “sd”， 软 
























































盘 为 “fd”， 并 口 为 “ljp”， 第 二 部 分 通常 为 数字 或 字母 ， 用 来 区 





区 


别 设 备 实例 。 例如 /dewhda, /dev/hdb, /dev/hdc 表示 第 一 、 二 、 三 块 硬盘 ; 而 /dev/hdal、 /dev/hda2、 /dev/hda3 





表示 第 一 硬盘 的 第 一 、 第 二 、 第 三 分 区 。 
































CONEFIG_DEVEFS_FS， 那 么 就 可 以 利用 这 种 设备 管理 





















































文件 的 方法 来 管理 位 于 /dev 目录 下 的 所 有 设备 , 我 们 知道 /dev 目录 下 的 每 一 个 文 







































































至 于 当前 该 设备 存在 与 否 先 且 不 论 ， 而 且 这 些 特殊 文件 是 位 于 根 文件 系统 上 的 ， 
我 们 就 已 经 建立 了 这 些 设备 文件 ， 因 此 通过 操作 这 些 特殊 文件 






































这 种 机 制 就 是 2.4. 的 版 本 中 的 注册 与 管理 方式 一 一 devfs 管理 方式 ， 如 果 在 编译 内 核 时 选中 





EH. devfs 挂 载 于 /dev 目录 下 ， 提 供 了 一 种 类 似 于 
件 都 对 应 的 是 一 个 设备 ， 

















在 制作 文件 系统 的 时 





候 


， 可 以 实现 与 内 核 进行 交互 。 但 是 devfs 


文件 系统 有 一 些 缺 点 ， 例 如 : 不 确定 的 设备 映射 ， 有 时 一 个 设备 映射 的 设备 文件 可 能 不 同 ， 例 如 我 的 U 
盘 可 能 对 应 sda 有 可 能 对 应 sdb; 没有 足够 的 主 / 辅 设 备 号 ， 当 设备 过 多 的 时 候 ， 












































/dev 目录 下 文件 太 多 而 且 不 能 表示 当前 系统 上 的 实际 设备 ， 命 名 不 够 灵活 ， 不 和 


备 之 间 冲 突 而 不 能 正常 初始 化 驱动 。 
































本 人 在 构思 这 本 书 的 时 候 devfs 管理 方式 还 在 大 行 其 道 , 但 是 时 隔 3 4E, 内核 源 代码 中 已 经 不 采用 
个 新 的 文件 系统 sysfs， 它 挂 载 于 /sys 目录 下 ， 跟 devfs 一 样 它 也 





种 技术 ， 转 而 采用 sysfs 技术 。 引 入 了 一 
是 一 个 虚拟 文件 系统 ， 也 是 用 来 对 系统 
























































Ach 


第 58 页 








的 设备 进行 管理 的 ， 它 把 实际 连接 到 系统 上 的 设备 和 总 线 组 织 


显然 这 会 成 为 一 个 问题 ; 
任意 指定 ， 容 易 造 成 设 


wm 
这 


成 


一 个 分 级 的 文件 ， 用 户 空 间 的 程序 同样 可 以 利用 这 些 信 ， 
设备 树 的 一 个 直观 反应 , sysfs 的 工作 就 是 把 系统 的 硬件 配置 视 
中 General Setup>Configure Standard Kernel features (For small systems), Æ File 
单 内 部 出 现 “sysfs file system support”. 
是 建立 一 种 分 层 的 体 于 
发 者 如 果 知 道 自己 的 设备 属于 哪 一 种 class， 那 么 就 把 其 驱动 程序 挂 
分 配 名 字 和 设备 号 ,如果 不 确定 是 哪 种 class, 还 可 以 自己 建立 class 


上 实际 
内 核 中 ， 必须 





选 


System Pseudo filesystems 3% 














不 管 如 何 进步 ， 其 中 心思 想 
一 种 class, Jk 


网 络 设备 也 是 
到 | 本 


上 应 的 class E, 
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LAE 








动 程序 开 
让 内 核 为 驱动 程序 









































类 别 。Linux 用 户 





nj 








息 以 实 


现 和 内 核 的 交互 ， 该 文件 系统 是 当前 系统 



































以 到 /sys 下 观察 一 下 系统 中 有 哪些 内 核 模 











WEIL, /sys 目录 确 





实 将 各 种 设备 进行 了 归 类 ， 























提供 的 信 
间 ， 而 且 udev T4 
IBA sysfs 是 





序 ， 当 被 内 核 检测 到 1 的 时 候 ， 会 直接 在 sysfs 中 
的 时 候 才 会 这 样 做 。 一旦 挂 载 了 p 文件 系统 ( 挂 载 到 /sys), AEN 
进程 使 用 ， 并 提供 给 
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以 被 用 户 空 间 的 





县 来 实现 所 有 





条 理 清 
devfs 的 功能 的 ， Due udev 运行 在 用 户 空 








=j 





存在 devfs 那些 先天 的 缺陷 。 





IKEA 
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udev LAE 











关于 设备 管理 


| 建设 备 节点 。 











的 Linux 的 设备 人 


























的 内 容 ， 我 只 想 说 这 么 多 ， 因 
里 在 配置 文件 和 环境 变量 的 设置 





EN 








AR 








为 要 牵扯 到 
上 多 少 有 些 不 同 ， 它 











不 影响 本 文 的 理解 ， 
Linux 在 设备 驱动 程序 的 实 ] 























Bu mH H 





























我 们 就 先 跨 过 这 部 分 内 容 吧 。 
现 上 又 分 为 两 层 : 





下 面 我 们 开始 进入 内 pat AERE 



































图 导出 给 





TES 























Po Are 


1， 块 设备 是 一 种 class， 字 符 设 























块 及 豫 
晰 的 多 。 用 户 空 











STAI AY LA udev 


间 rH, 




















ua 


























K 动 程序 在 sysfs 











间 


备 是 


动 ， 然 后 和 /dev 下 的 文件 做 一 


而 devfs 却 
N, sysfs 将 是 未 来 发 展 的 方向 。 
怎么 认 出 系统 中 存在 的 设备 以 及 应 该 使 用 什么 设备 号 呢 ? 对 于 已 经 编 入 内 核 的 驱 
和 其 对 象 ， 对 于 编译 成 模块 的 驱动 程序 ， 当 模块 载 入 








的 进程 。 在 2.6.18 





一 种 class, m 








个 对 比 
就 是 利用 了 sysfs 
运行 在 内 核 空 


























动 程 





注册 的 数据 就 可 




















许多 的 sarees een 








min 





FH , 
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e 抽象 设备 层 〈 又 叫 核心 模块 ) 
e ”特定 设备 驱动 程序 
抽象 硬件 层 : 

这 一 层 主 要 提供 一 些 设 备 无 关 的 处 理 流程 ， 也 提供 一 些 公 用 的 函数 给 底层 的 device driver 调用 。 
它 为 网 络 协议 提供 统一 的 发 送 、 接 收 接口 。 这 主要 是 通过 net_device 结构 。 是 上 层 的 、 与 设备 无 关 的 ， 
这 部 分 根据 输入 输出 请 求 ， 通 过 特定 设备 驱动 程序 接口 ， 来 与 设备 进行 通信 。 


特定 设备 驱动 程序 : 是 一 种 下 层 的 、 与 设备 有 关 的 ， 常 称 为 设备 驱 
交道 ， 并 且 向 上 层 提供 一 组 访问 接口 ; 
示 它 所 驱动 的 控制 器 是 否 有 一 
那么 第 三 个 大 步骤 就 是 抽象 设备 层 的 初始 化 。 这 





如 下 : 
subsys_initca 
这 个 宏 定义 请 多 


这 个 函 
proc 文件 











AB, sysfs 系统 、 全 








个 实例 。 





ne dev_init); 
HZ 


所 以 它 是 在 core initcall 和 fs initcall 之 后 被 调 
在 Linux2.4 内 核 中 net_dev_init 就 是 对 实际 底 


当 一 个 网 络 设备 的 初始 化 程序 被 调 














动 程序 ， 它 直接 与 相应 设备 打 











用 时 ， 














| net. dev. init 函数 完成 ， 此 函数 


它 返 回 一 个 状态 指 








由 下 面 的 宏和 修饰， 














参见 前 面 说 的 inith， 它 被 定义 为 : define_initcall("4",fn) 


用 的 。 


层 网 络 设备 的 初始 化 例 程 。 





数 在 Linux2.6 内 核 中 已 经 不 对 特定 设备 进行 初始 化 了 ， 只 是 为 网 络 设备 设置 





上 晶 是 我 们 要 注意 的 是 现在 的 

















En 




















些 基 础 功能 





。 比 如 

















局 设备 和 索引 表 、 


的 各 项 成 员 的 初始 化 。 


设置 软 中 断 回 调 等 。 不 过 我 个 人 党 


4 EA 


“Tih Fy EL 





重要 的 是 对 queue 






































tn fem 

Be, 5 

3.  * 此 函数 由 单一 线程 在 boot 的 时 候 调 用 ， 不 需要 获 生 
(Ne eff 

5. static int __init net_dev_init (void) 

Gs 4 

yes int i, rc = -ENOMEM; 

CP 

9x BUG ON(!dev boot phase); 








初始 化 可 以 存放 设备 相关 信息 的 全 局 数据 结构 ， 在 此 时 设备 一 般 还 没有 被 初始 化 ， 
RM *tnl 信号 量 
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Nu 
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xi 
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lus 每 个 ceu 把 报 文 放 到 自己 的 队列 中 ， 所 以 不 需要 lock: 

11. if (dev_proc_init()) _|geruct softnet_data 

1124 goto out; T 

13. s t net device *output queue; 

pus 1E (netdev syste dmi () ) a t sk buff head input_pkt_queue; 

15. goto out; ^ t list head poll list; 

16. Pd t sk buff *completion queue; 

IETA INIT_LIST_HEAD (&ptype_ałl); 

18. Tor (i = @ 1 < 16; iaf) t net device backlog_dev; 

19. INIT LIST HEAD (&pfype. base à» 

20. / 

21. for (i = 0; i « ARRAY SIZE(dev name head); i++) 

Die INIT HLIST HEADK(&dev name head[il); 

23: s 

24. for (i = 0; i < ARRAY_SIZE (dev_index_head); i++) 

25. INIT_HLIST_HEAD (&dev_index_head[i]); 

AG « 1 

2. [Fs i 

28. * Initialise the; packet receive queues. 

B®. ay : 

每 个 CPU 有 自己 的 一 个 队列 ， 本 书 不 打算 讨论 多 cpu 的 情形 ， 所 以 读者 请 将 NR_CPUS 看 成 1 即 可 
305 for (i = 0; i < NR'CPUS; i++) { 
SL . struct softnet_data *queue; _-->|f E > 局 变量 | per cpu softnet data, 定义 为 
DUE jr (包括 接收 和 发 送 ) 的 数据 队列 ， 这 个 变量 是 
ME 通 3 EFINE PER CPU(struct softnet data, 
1 ETE: 

32. queue = &per cpu(softnet data, qu softnet data) = ( NULL }; XM 

Soe Skb queue head init(&queue-»input pkt queue); 

34. queue-»throttle = 0; 

SB queue-»cng level - 0; 

38 queue-»avg blog = 10; /* arbitrary non-zero */ 

Seb queue->completion_queue = NULL; 

Sa INIT LIST HEAD(&queue-»poll list); 

dd. set bit( LINK STATE START, &queue->backlog_dev.state) ; 

40. queue-»backlog dev.weight = weight p; 

41. queue->backlog_dev.poll = process backlog; 

42. atomic set(&queue-»backlog dev.refcnt, 1); 

43. ) 

44. 

45. dev_boot_phase = 0; 

46. 

47. open softirq(NET TX SOFTIRQ, net tx action, NULL); 

48. open softirq(NET RX SOFTIRQ, net rx action, NULL); 

49. . init dst init (void) 

50 Gies 3usubp() m ecco 

51 dev mcast init (); register netdevice notifier(&dst dev notifier); 

523 TER NO 

S e l 其 中 的 参数 是 通知 链 dst_dev_notifier， 它 在 初始 化 过 程 中 没有 什么 

| 季 别 重要 的 用 处 ， 但 是 在 副 除 设备 接口 的 时 候 非常 重要 ， 因 为 它 只 响应 








代码 段 2-31 net dev init 函数 


这 个 queue 之 所 以 重要 ， 在 于 我 们 将 来 在 接收 报 文 的 章节 中 要 对 它 大 书 特 书 ， 不 然 ， 我 们 就 不 知道 
Linux 网 络 接收 过 程 的 整个 环节 ? 不 过 ， 在 此 处 ， 读者 只 ri 记 住 2 点 : 
1. 这 个 queue 有 一 个 名 叫 backlog_dev 的 设备 ,其 poll 函数 指针 指向 了 一 个 叫做 process_backlog 
的 函数 
2. 我 们 设置 的 接收 软 中 断 RX_SOFTIRQ) 将 要 和 这 个 queue 以 及 back log 设备 打交道 。 















































2.6.1 ”底层 PCI 模块 的 初始 化 
虽然 我 们 不 必 太 关心 设备 管理 是 如 何 实现 的 ， 但 是 我 们 要 知道 我 们 的 驱动 程序 是 如 何 与 设备 搭 上 关 
系 。 在 目前 的 主机 上 ，PCI 总 线 是 用 得 最 广泛 的 总 线 技术 ， 而 基于 PC] 总 线 的 网 卡 设备 已 经 是 市 场 主流 ， 
我 们 就 研究 一 下 PCI 网 卡 是 如 何 被 操控 的 ， 以 此 可 以 推断 出 在 不 同 总 线 技 术 下 驱动 程序 的 实现 基础 。 


s. 
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我 们 已 经 知道 万 事 都 得 有 头 ， 驱 动 程序 也 不 例外 。 在 之 前 提 到 的 4 个 大 的 步骤 里 ， 驱 动 程序 开发 人 





员 使 用 module init 安 来 修饰 自己 邓 





pci_register_driver。 其 参数 是 


还 能 见 到 它 。 

















pci_module_init 












































已 经 变 成 include/linux 








此 函数 已 经 被 定义 
为 下 面 这 个 函数 








pci_register_driver 

















. pci register driver 



































driver register 











i 








bus_add_driver 











init， 它 就 是 整个 驱动 程序 开始 工作 









































Joe FH pcih ! 









































pci_create_newid_file 











区 动 程序 的 第 一 个 函数 ,促使 初始 化 函数 放 在 第 6 段 .initcall 段 中 (如 果 
你 忘记 了 请 参考 2.2.3 WA 2.5 节 )。 驱 动 程序 必须 得 遵守 一 套 开发 框架 ， 如 果 是 PCI Ika, 3 
到 这 一 点 必须 调用 一 个 函数 : pei module 
底层 关于 PCI 操作 。 不 过 在 2.6 P'E 
一 个 pci_driver{} 类 型 的 结构 体 ， 此 结构 


b 么 为 了 做 
的 第 一 步 ， 它 也 能 蔡 你 完成 
的 宏 ， 它 被 定义 成 
驱动 开发 人 员 定 义 。 我 们 等 一 会 














get | 


bus 











在 lib/kobject.c 中 











kobject_set_name 














kobject_register 




















kobject_init 
































kobject_add 














sysfs_create_file 





driver_attach 

















图 表 2-21 pci module init 函数 调用 树 

















分 析 它 : 








/** 


sd: 
大 


* ”遍历 总 线 上 挂 着 的 设备 


OeWN Hm 











* driver attach - 尝试 着 


代表 驱动 程序 上 








匹配 对 。 注 意 ， 我 们 忽略 返回 值 为 -: 





了 ， 那 么 也 就 找到 了 


民 据 上 图 顺 茧 摸 瓜 ， 最 终 会 找到 driver attach Kt. HITA 
巴 驱 动 绑 定 到 设备 上 
的 结构 . 





























一 个 设备 上 ， 这 种 情况 其 





模块 的 方式 将 这 种 代码 植 入 内 核 
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Sio struct bus_type * bus 


实 很 常见 ，3 











比如 病毒 。 


6 
7. void driver_attach(struct device_driver * drv) 
8 


= drv->bus; 


ENODEV 的 结果 ， 因 
要 是 某 些 需求 要 求 运 行 在 内 核 ， 但 又 没有 实 








党 试 匹配 每 个 驱动 ， 如 果 bus_macth () 返回 0 并 且 dev-»driver 被 设置 











为 很 有 可 能 一 个 驱动 程序 不 用 





绑 定 到 











遍历 整个 总 线 链 表 ， 找 到 与 设备 匹配 的 驱动 程序 ， 这 说 明 总 线 上 挂 的 不 止 一 种 设备 





10. struct list head * entry; 

li. int error; 

IE 

dm if (!bus-»match) 

14. return; 

1i cie list for each(entry,&bus-»devices.list) { 
iG). struct device * dev = 

"Ure if (!dev-»driver) { 


container of(entry,struct device,bus list); 





际 的 设备 与 之 对 应 ， 人 们 以 内 核 
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18 error bus_match (dev, drv) ; 
TS 
20 
Zi 
22 
代码 段 2-32 driver attach 函数 
门 就 没有 必要 去 翻 箱 倒 柜 的 研究 bus. macth 内 部 做 了 什么 了 ， 要 把 它 说 明白 就 偏离 了 本 书 的 主 


线 。 我 们 只 给 出 这 个 函数 的 大 致 流程 。 














bus match 函数 最 后 会 
大 的 关系 : 



































bus_match 


























dev->bus->match 








pci_bus_match 











drv->probe 








pci_device_probe 























. pci device probe 




















device bind driver 























Sysfs create link 











图 表 2-22 bus match 函数 调用 树 








调用 _pci_qevice_probe， 这 个 函数 非常 重要 ， 和 所 有 驱动 程序 有 非常 
















































































il. 
2. * WER DRE] o, FREE o fü. 
Sis * side-effect: pci dev-»driver is set to drv when drv claims pci dev. 
4. 
5t 
6. . pci device probe(struct pci driver *drv, struct pci dev *pci dev) 
7a 
8 . int error = 0; 
oF 
LOF (!pci_dev->driver && drv->probe) { 
nee error = pci_device_probe_static(drv, pci_dev) ; 
es if (error —ENODEV) 
ILS). error pci_device_probe_dynamic(drv, pci dev); 
14. 
MESE return error; 
16. 
代码 段 2-33 pci device probe 函数 

` 管 是 哪 一 种 probe， 都 最 终 调 用 qzrv>probe， 这 是 一 个 函数 指针 ， 它 是 由 驱动 程序 的 开发 者 设置 

的 。 下 面 就 以 网 络 设备 的 驱 动 程序 为 例 ， 看 看 此 probe 是 如 何 被 指定 的 ， 它 完成 了 什么 工作 。 下 图 表示 


dev>probe 可 以 被 两 个 函数 




















用 ， 分 别 是 pci device probe. static 和 pci device probe dynamic 函数 ， 
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Li? HORII 








它们 先 


分 别 调 








pci_device_probe_static 











用 pci. match, device 和 pci_match_one_device R 


函数 ， 最 后 才 会 


调用 它 。 








pci_device_probe_dynamic 




















pci_match_device 











pci_match_one_device 
































drv->probe 





~ | 








这 就 是 特定 设备 的 初始 化 
函数 ， 对 应 各 驱动 模块 的 
pci driver.probe&k RX 








图 表 2-23 drv->probe 的 被 调用 关系 树 


1E pci register . driver 调 
Sysfs create file P 








2.6.2 ”网 络 设备 接口 初始 化 例 程 












































































































































用 driver register 之 后 会 





调用 pci create newid file PK ži, 














ag 


它 会 调用 























Ab I 














函数 为 当前 的 驱动 程序 创建 相应 的 文件 ， 文 件 放 在 /sys 目录 下 。 






























































































































































请 参考 前 文 所 述 




















net dev init 为 我 们 准备 好 了 网 络 设备 的 基础 功能 部 件 ， 那 特定 的 设备 驱动 程序 在 哪 被 初始 化 呢 ? 
先 别 急 ， 我 们 得 先知 道 驱 动 程序 是 如 何 被 装 入 内 存 的 。 我 们 上 面 章 节 曾 分 析 过 ELE 格式 ， 每 个 驱动 
程序 编写 者 通过 设置 自己 的 驱动 程序 入 口 函 数 一 一 比如 xxx_init module A module, init 类 型 的 ， 那 么 
在 编译 以 后 入 口 函数 会 放 在 特殊 的 text 段 中 E a HET BIIA TS A FPR, LIE, AR 
ZU TIF BUT AS A PRB, LER PESKY TREE CE AS E s — P ES HE ih a SS BR A I EE PSI SE 
现 过 程 ， 其 中 包括 我 们 熟知 的 loopback 接口 ， 它 也 作为 一 种 设备 ， A A, XX. 
它 还 主动 完成 了 其 它 驱 动 程序 没有 做 的 事 一 一 register_netdev!: 
RFRA A 
设备 driver 1 把 驱动 程序 
装 入 到 内 存 中 
xxx_init_module 
pci_module_init(xxx_driver) 
将 此 数据 放 入 pci 数 据 库 中 
yyy init modue | . | | | ; 请 联系 上 
f ， 一 节 的 图 
dev>probe() 
net_olddevs_init 
loopback_init 
register_netdev 
(&loopback_dev) 
图 表 2-24 系统 装 入 各 驱动 程序 的 步 又 
设备 驱动 程序 被 装 入 系统 的 步骤 如 上 图 所 示 。 每 个 驱动 程序 调用 pci module init 函数 ， 传 入 一 个 








pci_driver{ } 结 构 ， 比 如 : 











static struct pci driver aaa. driver = { 
.name = "aaa", 


* 驱动 模块 的 名 字 ， 可 任 | 








开发 者 定义 */ 














Nur 


dur 


页 
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id table = aaa, pci tbl, /* 这 是 一 个 pci_device id{f} 结 构 的 数组 ， 必 须 和 设备 的 硬件 信息 一 致 */ 
probe =aaa_init_one, /* 回调 函数 ， 由 PCI 模块 调用 */ 




















不 过 要 注意 的 是 这 只 是 加 载 ， 并 不 是 对 设备 进行 初始 化 。 在 Linux 初学 者 会 有 错觉 。 一 个 明证 就 是 : 
我 们 在 配置 内 核 的 编译 时 ， 比 如 在 配置 网 络 设备 一 节 时 ， 会 看 到 多 种 网 络 设备 驱动 被 编译 到 内 核 ， 但 
是 实际 上 能 起 作用 的 束 只 是 与 主机 网 口 真正 匹配 的 驱动 程序 能 工作 。 也 就 是 说 ， 那 些 没有 相应 设备 的 驱 
动 程序 根本 就 找 不 到 自己 的 设备 ， 也 就 无 所 谓 “ 初 始 化 ”了 。 举 个 例子 ， 本 人 主机 网 卡 是 Ether 
ExpressPro100， 但 在 在 配置 编译 选项 时 ， 如 果 选 择 同时 编译 Ether ExpressPro100 和 Intel Pro /100+ 并 都 是 
内 髓 入 内 核 时 ， 系 统 会 先 初始 化 前 者 ， 而 后 者 只 执行 到 pei bus match 就 返回 了 0 一 一 没有 找到 相应 的 设 


备 !。 

































































































































































那么 真正 的 初始 化 在 哪 呢 ? 

结合 上 一 节 介 绍 的 底层 PCI 模块 的 初始 化 一 节 中 ， 我 们 知道 每 个 驱动 程序 必须 设置 代码 中 的 device 
id{} 结 构 。 驱动 程序 把 这 个 结构 传 入 PCI 数据 库 , 当 PCI 开始 工作 以 后 , 它 会 扫描 总 线 和 设备 的 device id, 
然后 查找 数据 库 中 的 每 个 驱动 ， 如 果 与 之 匹配 ， 那 么 就 会 调用 之 前 注册 到 PCI 库 中 的 dev>probe O K 
数 。 每 个 驱动 程序 要 自己 写 probe O 回调 函数 ， 完 成 检查 寄存 器 和 真正 初始 化 设备 的 工作 。 其 通用 的 工 
作 流 程 如 下 图 : 













































































































































































当 PCI 启 动 扫 描 时 调用 
pci driver probe() Xx 
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a 分 配 并 初始 化 


























dev. new. index 中 分 配 一 个 ifindex 给 设备 ， 所 谓 分 


来 一 个 设备 就 加 1。 
在 2.6 早期 版 本 中 用 
性 差 ( 当 时 只 有 8 


qh SK FY 


DLE. 

































































下 VLAN 也 是 一 种 特殊 的 “设备 7， 当 然 系统 
口 但 并 不 知道 其 名 字 和 接口 ， 只 知道 接 
路 由 查找 的 本 质 吗 ? 






































指定 设备 对 


报 文 头 的 处 理 函数 








xxx probe 设备 的 实体 
pci_iomap 
alloc_etherdev 
netdev_priv 其 指定 的 
open 指 针 将 来 要 
设置 dev 各 函数 指针 | BAA 
register_netdev 
E 
dev alloc name 
alloc netdev 





























register netdevice 

















ether setup 














alloc divert blk 











dev new index 











dev. init scheduler 




















把 设备 插入 hash 表 














notifier_call_chain 
(NETDEV_REGISTER) 











图 表 2-25 drv>probe 实现 的 基本 功能 























配 ， 其 实 就 








是 


上 个 


D static 





dev. base 数组 来 串联 每 个 设备 ， 但 是 这 种 方法 在 查找 上 不 方便 ， 而 上 且 


个 设备 )， 随 着 Linux 在 路 | 
设备 多 接口 的 特性 ， 转 而 采用 dev_name_head 来 记录 。 此 全 
备 的 名 字 作 为 输入 ， 再 通过 
特别 多 的 情况 比如 有 1 








系列 hash 
































器 和 交换 机 设备 上 














zl 


变换 得 




































































I|—^* key, RAPHE AIT 
28 个 接口 ,或 者 有 4095 个 VLAN, 这 样 的 hash 查找 就 比较 快 了 。(Linux 
还 有 使 用 dev_base 的 地 方 ， 比 如 要 搜索 一 个 接 
W ip 地址 ， 那 么 就 上 只好 从 这 个 表 找 一 一 喷 ， 这 不 就 是 














EN 
的 应 用 ， 这 种 方法 不 能 适应 这 


整数 不 断 往 上 加 1， 


Eni 


长 





人 局 变量 是 一 个 hash 表 ， 以 设 
| 某 设 备 ， 如 果 碰 到 接 


static struct hlist head dev_name_head[1<<NETDEV_HASHBITS]， 也 就 是 说 该 hash 数组 有 15 个 
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单元 ， 比 以 前 的 8 个 多 ， 如 果 发 生 key 冲突 可 以 用 链表 来 挂 接 。 
e 同样 的 道理 ， 网 口 的 ifindex 也 用 hash 表 来 存储 了 ， 名 字 叫 dev_index_head 
本 来 不 想 列 出 函数 的 样子 ， 后 来 想 想 如 果 不 详细 列 出 来 ， 那 么 以 后 很 多 事情 讲 不 清楚 。 






































































































































HS O Rr N an 


5 
6. 
7 
8 


DE 


OR 
Lr 
UA 6 
1.3 « 
14. 
Bs 
LG). 
3 1 5 
JL e 
qos 
20. 
Zale 
22. 
23% 





head = dev name hash(dev-»name); 


EE 
* register netdevice - 注册 一 个 网 络 设备 
* dev: 是 将 要 创建 的 设备 指针 ， 我 们 后 面 会 详细 给 出 它 的 结构 定义 


* 






























































此 函数 把 一 个 网 络 设备 加 到 内 核 中 ， 然 后 发 送 一 个 NETDEV_REGISTER 消息 给 netdev 通知 链 ， 如 果 成 返回 o, 
代替 这 个 






































如 果 失 败 就 返回 一 个 负 的 错误 号 ， 指示 其 出 现 什 么 样 的 错误 ， 你 也 可 以 调用 ^ register netdevO 
5 


int register netdevice(struct net device *dev) 
( 

struct hlist head *head; 

struct hlist node *p; 

int ret; 


/* When net device's are persistent, this will be fatal. */ 
BUG ON(dev-»reg state !- NETREG UNINITIALIZED); 





dev-»iflink = -1; 


/* Init, if this function is available */ 
if (dev->init) { 
ret = dev-»init (dev); 


if (!'!dev_valid_name(dev->name)) { 

























































































4 dev >ifindex = dev new index(); 

4 dE (dev-»iflink -- -1) REA CAR 5 

af dev-»iflink = dev->ifindex; i ee 
SSUES ES ERE ROR SAE SA GHEE EOS ORS CU BOSE RS ES So Reg eas S index 和 name 的 合法 性 ， 
I 后 面 才 把 dev 放 入 这 两 个 


! hash #4. 
hlist_for_each(p, head) { 
struct net_device *d 
= hlist entry(p, struct net device, name hlist); 

if (!strncmp(d-»name, dev-»name, IFNAMSIZ)) { 


， 说 明 已 经 有 一 个 同名 同姓 的 设备 已 经 在 系统 中 了 ， | 




















那么 你 最 好 给 你 的 设备 起 一 个 独一无二 的 名 字 
ret = -EEXIST; 


nil rebuild_header routine, 
that should be never called and used as just bug trap. 


if (!dev-»rebuild header) 
dev-»rebuild header = default rebuild header; 
把 设备 放 入 net class 类 中 的 目录 下 ， 这 里 面 比较 复杂 而 无 趣 ， 主 要 是 sysfs 管理 驱动 程序 的 例 程 ， 不 


ret = netdev register sysfs (dev); 












































明确 该 设备 已 经 注册 过 了 ， 以 后 在 进入 此 函数 将 会 产生 一 个 错误 
dev-»reg state = NETREG REGISTERED; 

















































BET: 
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Se Le ee ee EL pe QI m 
Sap s 把 设备 放 入 dev base 链表 中 ， 这 里 dev tail 也 是 一 个 全 局 变量 
i5 x 
1 

56.! 
57.! set_bit (__LINK_STATE_PRESENT, &dev-»state); à 
58. | 
59. dev-»next = NULL; ; 

1 


60.1 *dev_tail = dev; 
61.sdev_tail = &dev-»next; ae 


62. 下 面 才 是 把 设备 分 别 放 入 name 表 和 index 表 

63. hlist add head(&dev-»name hlist, head); 

64. hlist add head(&dev-»index hlist, dev index hash(dev-»ifindex)); 
Gor 

66 . 

67. /* Notify protocols, that a new device appeared. */ 

68. raw_notifier_call_chain(&netdev_chain, NETDEV_REGISTER, dev) ; 




















69. 

70. ret = 0; 
giae 

VAs Clie? 

73. return ret; 
Ae 

TO 





代码 段 2-34 register_netdevice 函数 


下 面 这 个 结构 就 是 刚才 一 直 说 的 net_device， 它 显得 非常 庞大 ,这 其 实 是 Linux 内 核 目前 不 适合 用 作 
高 性 能 由 器 操作 系统 的 地 方 。 












































































































































dy e 
gs * Actually, this whole structure is a big mistake. It mixes I/O 
ux * data with strictly "high-level" data, and it has to know about 
4. * almost every data structure used in the INET module. 
57 a 
6. * FIXME: cleanup struct net_device such that network protocol info 
To * moves out. 
8. e 
9o 
10. struct net device 
ls 
> 
Ig. Ys 
14. * This is the first field of the "visible" part of this structure 
15. * It is the name the interface. 
16 ey 
I, ehar name [IFNAMSIZ]; 
18 
1g, e 
20 * I/O specific fields 
21 * FIXME: Merge these and struct ifmap into one 
ZA. ff 
23. ulong mem_end; /* shared mem end */ 
24. ulong mem start; /* shared mem start */ 
x86 处 理 器 主要 使 用 ro 地 址 空间 ， 而 其 他 架构 得 处 理 器 使 用 内 存 映射 To, TRO 是 设备 中 断 号 ，x86 处 理 器 也 用 
它 
25. ulong base_addr; /* device I/O address e 
PIGET 3e eig /* device IRQ number */ 
Zl 
Bn AS 


29. * Some hardware also needs these fields, but they are not 
30. * part of the usual set specified in Space.c. 


Sis £9 

9a. 

S3. wielmeue abr q9Xoxeie fp /* Selectable AUI, TP,..*/ 
34. uchar dma; /* DMA channel */ 

35A 

36. ulong state; 
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BWW CO 
oOo Oo +) 


Án 


PS. C ABS. IBS CIS EX 
co 10014» CO ho 2 





ooo 
Ih) [= Sy 


ann O1 
OY O1 iS CO 


Cn JU O1 
«o 00 N 


60. 
Gls 
(522 c 
GSi 
64. 
657 
66. 
(31 c 
68. 
69. 
1/0) 
Take 
UA. 
US. 
74. 
15. 
76. 
Wiles 
de 
Js 
80. 


Shab. s 
82. 


Soe 
84. 


85. 


86. 
87. 
88. 


Án 
ie) 


struct net_d 


vic 





/* 设备 初始 化 函 


digit. 


struct net d 








JT BAR) 











vic 





/* Interface 
int aL 
int aL 


index. 
findex; 
FaK 


struct net_device_stats* 


/* 以 下 是 和 协议 

















Suc ciu 
usu c EM CINES 
Siac adus 
struct Qdisc 


unsigned long 


/* 


* This marks the end of the 
* fields hereafter are internal to the system, 


特定 的 数据 */ 


Unique devic 


*next; 


We 
(*init) (struct net_device *dev); 


*next_sched; 


identifier 


Ey 





Fields preinitialized in Space.c finish here 


(*get stats) (struct net device *dev); 
































*gdisc; 

*gdisc sleeping; 
"erre: leee 
*gdisc ingress; 


tx queue len; 











/* SEI f 





F 存 放 的 最 多 报 文 数量 


























"visible" part of the structure. 





























pa 





All 


and may change at 


























































































































void * o ocg /* IPv4 specific data 

void *ip6_ptr; /* IPv6 specific data */ 

void *ax25 ptr; /* AX.25 specific data */ 

还 有 一 些 网 络 协议 的 ptr 指针 我 没有 列 出 来 

struct list_head joi bee Ye mink 1o) Tal list "i 

int quota; 

int weight; 

每 个 网 络 设备 对 应 一 个 此 队列 (也 可 以 没有 , 例如 1o)。 它 将 网 络 层 与 设备 驱动 区 分 开 来 。 数 据 包 在 网 络 层 处 理 完 
之 后 ， 可 能 会 缓冲 到 此 队列 中 。 这 里 也 只 是 可 能 会 缓冲 ， 因 为 数据 包 被 送 到 此 队列 后 ， 如 果 条 件 允 许 ， 立 刻 就 被 发 
送出 去 。 

此 队列 是 Linux 内 核 中 实现 Qos 的 关键 。 不 同 的 QoS 策略 采用 不 同 的 方式 对 此 队列 中 的 数据 包 进 行 处 理 ， 默 
认 的 方式 是 FIFO。 如 果 底 层 driver 处 理 速度 跟 不 上 发 送 数据 包 的 速度 ， 那 么 当 队 列 满 了 以 后 ， 后 续 的 数据 包 





* will (read: may be cleaned up at will). 
ny 
ushort flags; /* 接口 标志 ， 与 BSD 风格 保持 一 致 */ 
ushort gflags; 
ushort priv flags; /* 和 'flags' 一 样 ， 但 是 对 用 户 空间 不 可 见 . */ 
ushort unused_alignment_fixer; /* Because we need priv_flags, 
* and we want to be 32-bit aligned. 
i 
uint mtu; /* interface MTU value A 
ushort type;  /* 接口 的 硬件 类 型 ， 只 在 组 ARP 包 的 时 候 有 用 ， 下 表 是 常见 的 类 型 */ 
4 值 说 明 
ARPHRD_ETHER i 普通 以 太 网 (10Mbps) 
ARPHRD_IEEE802 6 IEEE 802.2 以 太 网 /TR/TB 
ushort hard_header_len; /* hardware hdr length */ 
指向 设备 特定 数据 ， 其 实 这 段 数据 就 紧 跟 在 net_device 0 4M Jal 
void * ou; 


struct net device 




















其 中 必 





























/* 接 


uchar 





地 址 信息 . 


broadcast [MAX_ADDR_LEN]; 


v 


*master; /* 指向 一 个 组 里 的 
一 个 主 链 路 ， 这 里 的 master 指针 就 指向 这 个 了 








/* hw beast add */ 




















E (Master) 设备 ， 比 如 本 书后 面 提 到 的 聚合 链 路 组 ， 
FE 链 路 的 设备 */ 





"m 
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89. uchar dev addr[MAX ADDR LEN]; /* 这 就 是 我 们 常 说 的 MAC 地 址 */ 

90. uchar addr_len; /* 人 硬件 地 址 长 度 ， 对 于 以 太 网 设备 ， 必 然 是 6 */ 

OM 

G25 beu. promiscuity; 

DIM 

94. int watchdog timeo; /* 链 路 状态 扫描 时 间 间 隔 ， 后 面 的 章节 会 提 到 */ 
95. struct timer list watchdog_timer; /* 扫描 链 路 状态 的 定时 器 函数 结构 */ 








DIG 

97. /* 此 变量 将 会 加 入 设备 名 字 hash 链 ， 就 是 dev. name head 变量 */ 
98. struct hlist node name hlist; 

99. /* 此 变量 将 会 加 入 设备 名 字 hash 链 ， 就 是 dev index head 变量 */ 





































































































































































































EROS struct hlist node index hlist; 

LOA. 

102. /* register/unregister 状态 机 */ 

WOS enum { NETREG_UNINITIALIZED=0, 

104. NETREG_REGISTERING, /* called register_netdevice */ 

OSa NETREG_REGISTERED, /* completed register todo */ 

QUE. NETREG UNREGISTERING, /* called unregister netdevice */ 

ILO. NETREG_UNREGISTERED, /* completed unregister todo */ 

108 . NETREG_RELEASED, /* called free_netdev */ 

LOS } reg_state; 

LEO; 

TER /* 关于 网 络 设备 的 一 些 特征 ， 常 见 的 如 下 表 */ 

LALA c int features; 
宏 定 义 值 说 明 
NETIF_F_SG il Scatter/gather IO 
NETIF F IP CSUM 2 Can checksum only TCP/UDP over TEVA 
NETIF_F_NO_CSUM 4 不 需要 做 checksum. 比如 loopack 设备 
NETIF_F_HW_CSUM 8 可 以 对 所 有 报 文 做 checksum 
NETIF_F_HW_VLAN_TX 128 | 通过 硬件 发 送 VLAN 报 文 ， 这 样 可 以 加 速 发 送 
NETIF_F_HW_VLAN_RX 256 通过 硬件 接收 VLAN 报 文 ， 加 速 接收 
NETIF F VLAN CHALLENGED | 1024 | 设备 不 支持 VLAN 报 文 ， 报 文 可 能 会 被 认为 是 错 包 而 被 设 

REF 

113. /* 下 面 是 接口 设备 特定 的 内 核 函数 */ 

lA Tp (*open) (struct net device *dev); 

XS coe 3m (*stop) (struct net device *dev); 

S SE e int (*hard_start xmit) (struct sk buff *skb, 

1L1.7/ a struct net device *dev); 

LRS a #define HAVE_NETDEV_POLL 

LES int (*poll) (struct net_device *dev, int *quota); 

120. qnt (*hard header) (struct sk buff *skb, 

ETE o struct net device *dev, 

1/222 unsigned short type, 

1.273) 5 void *daddr, 

124. void *saddr, 

1257 unsigned len); 

125. 3e (*rebuild header) (struct sk buff *skb); 

1277] 3 define HAVE SET MAC ADDR 

qos PAE (*set_mac_address) (struct net_device *dev, 

12S) 5 void *addr); 

130) 5 define HAVE PRIVATE IOCTL 

E ntc (*do ioctl) (struct net device *dev, 

T327 Smelt eae hehe (Gh) 9 

IB SS define HAVE_SET_CONFIG 

134. piney of (*set_config) (struct net_device *dev, 

1357 struct ifmap *map) ; 

HESIGE define HAVE HEADER CACHE 

i34 int (*hard header cache) (struct neighbour *neigh, 

dm struct hh cache *hhy; 

qd. void (*header cache update) (struct hh cache *hh, 

AOR struct net_device *dev, 

141. unsigned char * haddr); 

142. #define HAVE CHANGE MTU 

143. int (*change mtu) (struct net device *dev, int new mtu); 


144. 
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145. 

146 bey os (*hard_header_parse) (struct sk_buff *skb, 

147 unsigned char *haddr); 

148 ante (*neigh setup) (struct net device *dev, struct neigh parms *); 

149 me (*accept fastpath) (struct net device *, struct dst entry*); 

IESO #ifdef CONFIG_NETPOLL_RX 

LSI int netpoll_rx; 

152 #endif 

HESS #ifdef CONFIG NET POLL CONTROLLER 

154 void (*poll controller) (struct net device *dev); 

198 5 #endif 

156; 

17]. * 桥 端口 的 属性 */ 

153 struct net bridge port *br_port; 

1859) 

160 #ifdef CONFIG_NET_DIVERT 

La /* this will get initialized at each interface type init routine */ 

162 struct divert_blk *divert; 

163 #endif /* CONFIG NET DIVERT */ 

164 

165 /* class/net/name entry */ 

166 struct class_device class_dev; 

167 yy 

代码 段 2-35 net device 结构 

e 有 一 类 设备 ， 在 协议 栈 里 非常 特殊 ， 在 大 多 数 的 TCP/IP 实现 里 ， 都 实现 了 这 样 一 个 设备 ， 不 过 ， 它 
不 是 真正 的 设备 ， 而 只 是 一 个 虚拟 的 ， 用 来 做 调试 的 接口 。 它 就 是 loopback 设备 。 在 协议 栈 初 始 化 
的 时 候 ， 这 个 接口 必然 要 创建 ， 而 且 一 直 存 在 。 现 在 ， 我 们 来 看 看 这 个 接口 是 如 何 初始 化 的 ， 刚 才 
提 到 了 ， 它 在 被 装 入 的 时 候 ， 主 动 调用 了 register_netdev， 而 不 是 由 PCI 模块 回调 它 ， 原 因 很 简单 ， 
没有 实际 设备 的 id 与 loopback 设备 相符 ，PCI 自然 不 会 调用 它 ， 所 以 注册 的 事情 就 必须 自己 动手 ， 
丰衣足食 啦 。 与 2.4 内 核 不 同 的 是 , 在 2.6 内 核 中 , loopback 接口 设备 的 初始 化 被 移 到 net_olddevs_init 
中 

e 当 网 卡 是 以 模块 动态 加 载 方式 初始 化 的 时 候 ，netdev_boot_base 返回 0。 因 为 net_olddevs_init 在 各 模 





块 加 载 之 前 执行 
































































































































e 当 网 卡 以 嵌入 内 核 代 码 方式 初始 化 的 时 候 ， netdev boot base 回 返回 1。 因 为 典 入 模块 已 经 被 初始 化 
了 ， 所 以 在 net olddevs init 函数 执行 的 时 候 可 以 扫描 到 设备 的 存在 。 
下 面 是 loopback 设备 的 定义 : 
1. struct net_device loopback_dev = { 
De. .name ES lo 
Se .mtu 三 和 
4. .hard start xmit = loopback xmit, 
5x .hard_header = eth_header, 
Ga .hard_header_cache = eth_header_cache, 
di .header cache update — eth, header cache update, 
Se .hard header len = ETH HLEN, /* 14 */ 
9c .addr len = ETH ALEN, /* 6 */ 
EINE .tx queue len = O; 
i. .type = ARPHRD LOOPBACK, /* 0x0001*/ 
LZ « .rebuild header = eth rebuild header, 
ILS}. .flags = IFF LOOPBACK, 
14. .features = NETIF F SG | NETIF_F_FRAGLIST 
15. | NETIF F NO CSUM | NETIF F HIGHDMA 
16 | NETIF_F_LLTX, 
rS x 
代码 段 2-36 loopback dev 结构 
net. device( } 结 构 中 有 2 个 非常 重要 的 指针 : ip ptr 和 priv. ip ptr 指向 的 是 更 高 层次 的 数据 结构 ， 而 
priv 指向 的 是 设备 底层 的 私有 数据 。 因 为 在 Linux 内 核 维护 人 员 来 看 ， 大 部 分 网 络 设备 具有 的 共性 ， 和 与 
物理 硬件 无 关 的 数据 可 以 归纳 为 一 个 数据 结构 ， 这 是 设备 抽象 层 维护 的 结构 ， 而 硬件 自己 特有 的 数据 比 
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如 寄存 器 和 硬件 绥 冲 区 由 驱动 开发 人 员 维 护 ， 但 也 不 确定 这 些 数据 的 大 小 和 类 型 ， 于 是 使 用 一 个 void T8 
针 来 指向 。 要 注意 的 是 net device 和 设备 私有 数据 是 放 在 连续 的 空间 的 ， 请 读者 自行 去 参考 alloc_netdev 
函数 ， 这 减少 了 申请 内 存 的 次 数 ， 也 不 会 导致 2 次 释放 内 存 。 

而 且 net_device{} 这 个 结构 也 不 必 被 上 层 的 协议 栈 操作 ， 比 如 设备 可 能 有 卫 地 址 ， 也 可 能 没有 了 下 地 
址 ， 更 重要 的 是 ， 该 设备 也 不 应 该 只 和 也 协议 打 叫 道 ， 可 能 还 有 PPP 协议 、SLIP、X25 协议 ， 所 以 应 该 
再 找 一 个 跟 此 结构 相关 但 却 和 协议 相关 的 a 里 结构 ”来 记录 这 些 信息 。 由 于 并 不 肯定 是 和 了 IP 协议 栈 交 
互 ， 那 么 指向 这 个 “代理 结构 ”的 指针 类 型 还 是 void 类 型 。 当 然 按照 命名 规矩 ， 在 IP 协议 栈 的 框架 内 ， 
提出 了 一 个 in_device{} 的 结构 ，in 就 是 ip 的 意思 啦 。 昌 然 目 前 net_device{} 列 出 了 ip_ptr 和 其 他 
网 络 的 指针 ， 但 我 敢 预 言 将 来 这 个 几 个 指针 会 用 “联合 ”来 代替 ， 除 非 该 设备 不 仅 工 作 在 王 网 络 上 还 工 
作 在 其 他 类 型 的 网 络 上 。 





















































































































































































































































1. struct in_device 





2 

Ss struct net device *dev; 
4 atomic t refcnt; 

5 alim dead; 


维护 设备 的 地 址 列表 ， 对 的 ， 是 列表 ， 一 个 设备 可 以 有 多 个 地 址 ， 对 于 普通 Pc 机 来 说 似乎 比较 少见 ， 但 在 服务 
器 上 比较 常用 。 我 们 在 后 面 的 章节 中 会 介绍 它 的 















































6. SERIES IE SG *ifa_list; /* IP ifaddr chain */ 
下 面 m 开头 这 几 个 成 员 都 是 和 组 播 有 关系 ， 我 删 去 了 好 几 个 
dus SewuUce dle snes Hic ou sb /* IP multicast filter chain */ 
8. Serier Wj meo lieu *mc tomb; 
on unsigned long mr vl seen; 
TO OG ere en 
id. 维护 arp 协议 互 操作 的 参数 
WS struct neigh_parms *arp_parms; 
ILS} s struct ipv4_devconf cnf; 
ab, is 








代码 段 2-37 in device 结构 
这 个 结构 和 net_device 的 关系 如 下 图 ， 这 个 关系 在 inetdev_init 函数 中 确定 : 


eee in_device 























net device*dev ~ 设备 无 关 层 
































T 网 络 
— void *ip_ptr 设备 抽 象 层 
void *priv [一 
设备 特定 aT i Tea 
oe 特定 网 络 
设备 层 











图 表 2-26net device 和 in_device、 设 备 特定 数据 之 间 的 关系 


@ 设备 无 关 层 采用 in_device{} 数 据 结 构 保 存 IP 地 址 和 邻居 信息 一 一 虽然 是 间接 的 

网 络 抽象 层 采 用 net_device{ } 数 据 结构 保存 设备 的 名 字 、 编 号 、 地 址 等 共性 

e 设备 特定 层 的 数据 则 有 设备 驱动 开发 人 员 自 己 定 义 ， 一 般 有 硬件 发 送 、 接 收 缓冲 区 、 芯 片 寄存 
器 的 信息 等 等 。 这 片 内 存 区 一 般 是 紧 跟 在 net_device{} 后 面 ， 由 驱动 程序 在 创建 net device( } 的 
时 候 顺 带 把 这 块 内 存 也 创建 了 。 当 然 还 是 用 priv 指针 指向 ， 以 方便 访问 。 

设备 已 经 被 注册 了 ， 那 么 是 否 就 可 以 工作 了 呢 ? 不 是 的 ， 还 得 靠 用 户 把 这 些 网 卡 激活 ， 当 然 ， 一 般 
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都 有 脚本 在 系统 初始 化 的 时 候 干 这 样 的 活 。 网 卡 被 激活 的 时 候 ， 它 要 完成 几 个 非常 重用 的 事情 : 
l. 挂 接 中 断 处 理 函 数 CISR)， 如 果 不 能 为 驱动 程序 申请 到 中 断 ， 那 说 明 要 么 网 卡 没 插 好 ， 要 么 和 
其 他 设备 发 生 了 冲突 ， 结 果 就 是 设备 根本 不 能 用 。 
2. 创建 驱动 程序 内 部 接收 环 和 发 送 缓冲 区 ， 网 卡 一 般 都 要 “ 环 ” 的 方式 来 存放 报 文 。 
3. 挂 接 接 口 状态 扫描 定时 器 ， 以 poll 的 方式 轮 询 接口 是 否 真正 up 或 down. 

4. 进一步 打开 设备 特点 寄存 器 ， 使 其 可 以 开始 收发 报 文 了 
我 将 这 个 过 程 画 在 下 面 这 幅 图 中 。 














































































































































































































用 户 程 序 
使 能 /禁止 
ioctl 接 口 
Kernel 
IFF DOWN. i N IFF_UP 
eee dev_change_flags 
dev_close dev_open p 4 
准备 收发 数据 
Dev close() Dev >open() 
notifier_call_chain notifier_call_chain 
(NETDEV_DOWN) (NETDEV_UP) 















































看 到 这 几 幅 图 ， 读 者 一 定 都 看 到 了 那儿 个 红色 小 红旗 及 方 框 ， 其 中 写 明 了 此 时 代码 要 完成 的 基本 任 
务 。 现 在 可 以 对 驱动 程序 的 初始 化 做 一 个 基本 的 概括 ， 即 Linux2.6 下 网 络 驱 动 程序 的 初始 化 分 为 4 个 基 
本 步骤 : 
第 1 步 . “系统 把 驱动 程序 装 入 内 存 
第 2 步 .。 PCI 为 设备 选择 正确 的 驱动 程序 ， 并 分 配 相 应 内 存 数据 结构 
第 3 步 . 指定 驱动 程序 如 何 处 理 报 文 格式 

Bab. 用 户 打开 设备 使 其 可 以 真正 工作 起 来 























































































































关于 底层 驱动 的 架构 已 经 基本 介绍 完了 ， 在 这 里 我 还 得 提醒 读者 ， 在 本 书 中 ， 设 备 就 是 接口 ， 接 
就 是 设备 ， 它 们 在 一 般 情 况 下 是 同等 意义 。 也 许 有 读者 提出 一 块 网 卡 可 能 有 2 个 接口 ， 那 么 这 算 多 少 设 
备 呢 ? 可 以 这 样 解答 : 设备 驱动 程序 可 以 只 有 一 份 ， 但 是 你 创建 的 net, device( } 结 构 必须 要 2 个 ， 也 就 是 
W, Linux 内 核 本 来 不 是 用 来 做 路 由 器 的 ， 现 在 你 要 赶 鸭子 上 架 硬是 要 实现 路 由 器 级 别 的 Linux， 那 么 你 
得 忍受 内 核 中 一 些 编码 风格 一 一 那个 net_device 实际 可 以 改名 为 net_interface 等 。 所 以 ， 本 书 中 “接口 ” 
和 “设备 ”是 换 着 使 用 ， 它 们 的 含义 基本 上 是 接近 “接口 ”概念 的 。 
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第 3 章 配置 系统 


3.1 ”配置 过 程 分 析 




















ERE, 我们 先 介绍 配置 普通 设备 的 IP 地址 的 内 部 过 程 ， 接 着 再 转 到 loopback 接口 的 配置 过 程 ， 这 
两 个 过 程 有 相似 之 处 ， 所 以 一 起 解说 。 然 后 再 转 入 FIB 系统 ， 讲 解 我 们 最 感 兴趣 的 路 由 系统 ， 并 用 图 例 











































































































演示 路 由 表 的 变化 。 最 后 介绍 接口 状态 的 变化 ， 这 对 于 驱动 程序 开发 人 员 来 说 也 是 比较 重要 的 。 





3.1.1 配置 是 如 何 下 达到 内 核 的 ? 





我 们 假设 在 安装 我 们 的 Linux 系统 时 ,没有 配置 卫 地 址 , 也 没有 挂 上 网 线 , 完 



































这 样 方便 我 们 跟踪 系统 到 底 做 了 什么 。 





完全 全 是 一 台 “ 裸 机 ” 





安装 完 系统 之 后 ， 我 们 可 以 使 用 ifconfig 命令 ,查看 设备 信息 。 我 想 读者 们 应 该 都 知道 这 么 一 个 命令 

































































吧 。 在 Windows 上 相应 的 操作 是 ipconfig。 带 上 ”-a”* 参 数 表 示 要 查看 详细 的 配置 ， 





包括 loopbcack 设备 。 





#ifconfig -a 

ethO Link encap:Ethernet | HWaddr 00:80:C8:EB:2A:39 
BROADCAST MULTICAST MTU:1500  Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen: 1000 
RX bytes:0 (0.0 B) TX bytes:0 ( 0.0 b) 
Interrupt:5 


lo Link encap:Local Loopback 
inet addr: 127.0.0.1 | Mask:255.0.0.0 
UP LOOPBACK RUNNING | MTU:16436 Metric: 1 
RX packets:6 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 


不 同 的 机 器 和 网 卡 会 显示 一 些 不 同 。 在 我 的 另外 一 台 机 器 ， 其 eth0 的 Interrupt 等 于 3。 
现 在 运行 #strace ifconfig eth0 192.168.18.2 netmask 255.255.255.0， 配 置 好 ip 地 址 和 网 络 掩 码 。 为 什 
么 要 运行 strace? 在 大 部 分 系统 上 是 没有 ifconfig 的 源 代 人 码 的 ， 那 么 为 了 查看 ifconfig 内 部 完成 了 什么 操 















































作 时 ， 可 以 用 strace 命令 查看 。 它 收集 应 用 程序 执行 的 系统 调用 ， 甚 至 参数 都 外 
命令 的 输出 进行 整理 ， 我 们 可 以 把 ifconfig 内 部 调用 的 系统 接口 整理 如 下 : 
























































EE 记录 下 来 。 通 过 对 这 个 



































i, Wain nae eh Semey 

la a 

Ze struct sockaddr sa; 

3 struct sockaddr in sin; 

4. char host[128]; 

Bis struct aftype *ap; 

Oo struct hwtype *hw; 

Vo GIGS WESC] aliziep 

8. hau XU spp, 

9 int fd; 

10. 

Li. fd = socket (PF_INET, SOCK DGRAM, IPPROTO IP); 

LA ifr.ifr name = "eth0"; 

iS. ap = inet_aftype = 

14. { 

D57 "inet", NULL, /*"DARPA Internet", */ AF_INET, sizeof (unsigned long), 
qe. INET print, INET sprint, INET input, INET reserror, 
LF a NIUE, (INI sepowcaboue 8 // a NO / INI owe 79 y 
X8. INET getnetmask, 

19. -1, /* 这 个 值 会 被 赋 成 fa， 即 刚才 打开 的 socket */ 

205 NULL 

Bll Jg 
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BP Mose = S192, 168 18.29 

23. ap->input (0, host, &sa);/* TEIL sadsa_family=AF_INET, af>sa_data DARKE 
UY UG s al, 97 

24. memcpy((char *) &ifr.ifr addr, (char *) &sa, sizeof(struct sockaddr)); 

28 ioctl(fd, SIOCSIFADDR, &ifr); 

26) ioctl(skfd, SIOCGIFFLAGS, &ifr); 

2 c ioctl(skfd, SIOCSIFFLAGS, &ifr); 

28. /* FRB ike p tit fT ee 

297 Host MUI NIETO KA 

SOR LOGIE (SlazCl, SIOCSIFNETMASK, sies) p 

Sie 

S2: jh 





以 上 就 是 ifconfig 这 个 命令 实际 内 部 “ 伪 ” 代 人 码 ， 为 了 减轻 复杂 度 ， 我们 不 必 把 整 
socket 和 ioctl。4 表示 为 socket 打开 的 文件 描 











Em a 
述 符 ， pee ler eed a 
后 也 会 详细 介 



































mo MAUFEL TEX H 








可 以 看 出 ifconfig 实际 调 
到 达 系 统 
。 然 后 是 ioctl 这 个 系统 调用 。 





代码 段 3-1 配 置 ip 地 址 的 用 户 层 代码 


















































依次 调用 6 个 ioctt， 完 成 了 对 系统 地 址 
下 面 我 们 就 对 出 现 的 系统 调用 进行 分 析 ， 首 先是 socket. 








3.1.2 socket 系统 调用 





从 上 图 可 以 看 到 一 个 已 安装 的 Linux 操作 系统 究竟 支持 儿 种 文件 





er 


KE © 


在 BSD socket 层 内 使 用 msghdr{ } 结 构 保 存 数据 ; 


保存 数据 。 


这 一 部 分 处 理 BSD socket 相关 操作 ， 





struct socket { 
struct proto_ops 
struct file *file; 
struct sock *sk; 
wait queue head t wait; 
short type; 





*ODS; 








的 配置 。 



































用 了 2 个 系统 函数 : 
PERIIT PHASE, Jer 
在 Linux 相关 的 项 目 
E 我 们 要 配置 系统 的 地 址 ， 则 必定 要 通 





在 INET socket 





每 个 socket 在 内 核 ! 











和 个 代码 列 出 来 。 从 






































中 ， ioctl jc ‘ie 














e Socket 的 参数 以 
户 层 与 内 核 或 设备 驱动 
Bo 人 Æ ifconfig 的 程序 中 























系统 类 型 由 文件 系统 的 注册 链表 决 











E: EA FUITE] sk_buff{ } 数 据 结构 





以 struct socket 结构 体现 








h 
应 用 层 中 的 操作 对 象 是 socket 文件 描述 符 ， 通 过 文件 系统 定义 的 通用 接口 ， 使 用 系统 调用 从 用 户 空 





间 切 换 到 内 核 衬 
层 的 操作 。 























在 msghdr{ } 结 构 中 。 














使 用 的 网 络 设备 接口 和 下 一 


间 ， 控 制 socket 文件 描述 符 
TE BSD socket 层 中 ， 操 作对 象 是 socket{ } 结 构 。 每 一 


在 INET socket 层 中 ， 
型 ， 这 是 区 分 TCP 和 UDP 协议 的 主 
在 sk_buff{ } 结 构 中 。 从 INET socket /z:$ 
需要 传送 的 机 器 地 址 。 





























x 

















通过 网 络 地 址 族 的 不 同 来 区 分 不 同 的 操作 方法 , 判断 是 












































民 据 建立 连接 的 类 型 ， 
要 原则 。 这 一 层 的 操作 对 象 主要 














二 应 的 就 是 对 BSD socket 的 操作 ， 从 而 进入 到 BSD socket 
个 这 样 的 结构 对 应 的 是 一 个 网 络 连接 。 
否 应 该 进入 到 INET socket 层 ， 这 一 层 的 数据 存放 
分 成 面向 连接 的 和 面向 无 连接 两 种 类 

















是 sock{ } 类 型 的 数据 ， 


WIP 层 ， 主 要 是 路 由 过 程 ， 发 送 时 根据 发 送 的 目标 地 址 确定 需要 











而 数据 存放 











在 内 核 中 与 socket 对 应 的 系统 调用 是 sys_soceket， 所 谓 的 创建 套 接 口 ， 就 是 在 sockfs 这 个 文件 系统 








E RE bis us Linux/Unix 的 外 
socket. 









T 
qim. Wis 




















NE So IY 
指向 inode 建立 目录 项 和 索引 节点 〈 即 套 接口 
现在 我 们 来 看 看 每 个 进程 是 如 何 对 待 其 打开 的 文人 







































































= anode zm 过 程 





3 度 来 看 ， 该 节点 是 一 个 文件 
于 sockfs 文件 系统 是 系统 初始 化 时 就 
便 以 sock_mnt ABE 






































EX socket 的 : 














， 不 过 这 个 文件 具有 非 普 通 文 件 的 属性 ， 























保存 在 全 局 指针 sock mnt 








。 现 在 将 socket 结构 的 宿主 inode 与 文件 系 
结构 在 H PE v ^ dentry 结构 。 指 向 inode fË file->f_dentry 
的 节点 名 ) 
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process 














进程 用 户 空间 数据 








一 一 0 











User space 

















进程 空间 及 



































































































































相关 数据 结构 
进程 内 核 空间 数据 
Op j 存 地 Kernel space 
— f> 4 存 地 
2 存 地 
—9> I 存 地 
4 j 存 地 
Std in Std out Socket 1 Socket 2 
特定 文件 的 数 特定 文件 的 数 特定 文件 的 数 特定 文件 的 数 
据 据 ecc ooo 据 据 
| inode 数据 | Inode 数 据 Inode 数 据 inode 数据 






































图 表 3-1FD 的 意义 


从 上 图 中 可 以 看 到 ， 标 准 输入 接口 (std in) 的 文件 描述 符 占据 了 进程 的 用 户 空间 的 文件 描述 符 数组 
的 第 一 个 单元 ， 这 是 系统 内 定 的 。 通 过 内 核 的 组 织 ， 其 在 内 核 中 的 描述 符 数组 的 第 一 个 单元 存放 了 指向 
其 inode 的 地 址 ， 以 此 类 推 ， 标 准 输出 接口 (std out) 占据 第 二 个 单元 ， 错 误 输 出 接口 (std err) 占据 第 
三 个 单元 (上 图 没有 画 出 )。 而 用 户 自己 打开 的 文件 或 socket， 则 依次 排列 到 系统 已 经 内 定 的 错误 输出 接 
口 的 fd 单元 后 面 ， 比 如 ， 如 果 某 进程 第 一 次 打开 了 一 个 党 规 文 件 ， 它 的 fd 必定 是 3， 当 再 打开 别 的 文件 
IN, fd 就 是 4， 这 里 3 和 4 就 是 用 户 空间 中 的 fd 数组 下 标 。 同 样 的 道理 ，socket 也 可 以 看 作 是 一 个 文件 。 
每 次 调用 socket 返回 的 fd 值 也 是 指 用 户 空间 的 fd 数组 下 标 。 
现在 我 们 来 看 看 socket 函数 本 身 ， 经 过 glibc 库 对 其 封装 ， 它 将 通过 int 0x80 产生 一 个 软件 中 断 《〈 注 
是 软 中 断 ), 由 内 核 导 向 执行 sys_socket, 基本 上 参数 会 原封 不 动 地 传 入 内 核 , 它们 分 别 是 (1) int family, 
(2) int type, (3) int protocol。 其 调用 树 如 下 图 : 
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Ah 














sys_socket 











sock_create 
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如 果 SE 模 块 没 
有 被 加 载 ， 此 画 














security_socket_create 











sock=sock_alloc 














sock->type = type 








i 
1 
1 
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" 
1 








af_inet.c 




















net_families[family]->create(sock, protocol) 









































sock_map_fd 






























































sock alloc 进行 分 






































« 








fd install 








Security socket post create 实际 调 E 
inet create 
Nee 这 个 画 数 中 会 为 套 接 
一 一 -| 字 分 配 一 个 文件 描述 
符 并 分 配 一 个 file 文 件 
sock_alloc_fd 
sock attach fd(socket, file) 
把 file 指 针 
放 入 fd 数组 中 


图 表 3-2sys_socket 的 函数 调用 树 


于 不 关心 security 方面 的 代码 ， 我 们 就 不 下 
解 ，struct socket{ } 结 构 就 是 它 创 建 的 ， 它 的 调用 树 如 下 : 








sock_alloc 








我 们 的 mnt_sb>s_opalloc_inode 就 是 前 文中 
的 sock_alloc_inode 函数 。 它 仅仅 是 用 kmem_cache_alloc 创建 一 个 socket_alloc{ ) 257 





























new_inode(sock_mnt->mnt_sb) 




















inode 


3% security socket create K% J o HFX 


实际 执行 
sock_alloc_inode 








alloc_ 




















t 
| 
| 
| 
| 
t 
M 
sb->s_op->alloc_inode ' 

















图 表 3-3sock alloc 函数 调用 树 











对 inode 进 行 初始 化 














静态 全 局 变量 
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IJ 





NU 


super. operations sockfs ops 定义 
类 型 的 inode， 然 





后 





返回 给 alloc_inode 进行 初始 化 。 所 以 纵 观 sock_alloc( )H EH 


(应 该 是 socket_alloc 类 型 ) 


E. RAH 


此 图 








结构 就 表示 这 是 一 个 跟 网 络 有 关 的 文 伯 
实体 ， 每 一 次 调用 socket 函数 都 会 在 INET 中 保存 这 么 一 个 实 
在 常规 文件 系统 中 常 月 
创建 。 一 旦 socket WE 
结构 并 从 socket inode 
inode 和 socket。 内 核 通 
块 ， 这 样 用 户 空 间 和 内 核 协 议 
调用 了 。 一 个 file_operations 结构 ，socket_file_ops 被 创建 3 
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bay 








H A) socket socket 部 分 就 是 “FD 


由 socket 使 用 。 























就 是 分 配 及 初始 化 属于 网 络 类 型 
的 inode. inode 结构 中 的 大 部 分 字段 只 是 对 真正 的 文件 系统 重要 ， 但 
H. socket alloc 类 型 的 inode 结构 如 下 : 
对 VFS 系 统 负责 socket_alloc ( } 
结 
对 INET 层 负责 
图 表 3-4 soket_alloc 结构 
的 意义 ”一 图 中 那个 “特定 文件 的 数据 ”部 分 ,那么 socket{ } 
F 描 述 符 ， 是 INET 层 与 应 用 层 打 开 的 文件 描述 一 一 对 应 的 














过 fd 














对 应 的 socket 对 应 操作 








slab cache 4 



































体 。 
































的 open 系统 调用 不 能 用 来 创建 一 个 socket, sockets 只 能 用 socket API 
J£, IO 操作 就 和 普通 文件 或 设备 一 样 了 。sock_alloc 实际 上 创建 了 socket 








PF 创建 inode Zi. SOCKET I 和 SOCK_INODE 可 以 相互 转换 
找到 内 存 中 对 应 的 inode， 然 后 再 通过 VFS 系统 查找 到 对 应 的 内 核 模 
栈 就 搭 上 了 关系 。 一 旦 inode 被 创建 ，socket 层 就 可 以 映射 IO 系统 

初始 化 ,其 中 所 有 的 IO 系统 调用 都 有 
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CE: open 调用 返回 一 个 ENXIO 错误 ) 
d qe 
2. Socket 类 型 的 文件 系统 和 其 他 文件 系统 一 样 有 一 个 特别 的 操作 集合 ， 但 是 有 相当 一 部 分 操作 是 经 过 直接 
调用 系统 接口 而 不 是 通过 这 个 操作 集合 来 完成 。 
Slc ir 
4. 
5. static struct file operations socket file ops = { 
(GN .owner = THIS MODULE, 
da .llseek = no llseek, 
Bis, MESS Unus 
SF -poll = SOC keno Oral, 
AOR UMMC ChKe COG tiles MES cM TI Cirle, 
why .open = sock no open,  /* 这 个 open 操作 明显 是 socket 系统 不 支持 的 */ 
1245 .release - sock close, 
L330 aen ess 
14. readv = sock_readv, 
Shc .writev = sock_writev, 
LOE 
Wi, RE 
代码 段 3-2 socket file ops 结构 定义 
到 此 为 止 ， 我 们 可 以 作出 结论 ，VFS 为 了 使 socket 系统 工作 一 一 或 者 说 socket 为 了 适应 VFS 




















系统 框架 ，socket 提供 了 2 个 数据 结构 : super_operations——sockfs_ops 和 file_operations—— 
socket file _ops。 前 者 是 必须 的 ， 它 创建 了 VFS 必需 的 inode, $E VES 可 以 对 其 进行 文件 级 别 的 管 











理 ; 





而 后 者 是 可 选 的 ， 用 户 层 可 以 使 用 标准 文 们 























系统 的 操作 比如 write() 和 read( ) 对 socket 对 象 进 
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行 操作 ， 也 可 以 采用 系统 提供 的 send( ) 和 recv( ) 接 口 对 socket 对 象 进 行 处 理 ， 但 二 者 都 归 一 到 网 
aaRS 

在 ifconfig 的 代码 中 socket 系统 调用 的 第 一 个 参数 即 family 是 PF_INET, 意味 着 socket. create 
中 的 net_families[family]->create(sock, protocoD) 指 的 是 net_families[PF_INET] 里 的 inet create 函数 ， 
它 在 “网 络 系统 初始 化 ”中 提 及 。 而 第 二 个 参数 type MIRA sockPtype 成 员 ， 而 后 根据 这 个 type 
获取 inetsw[] 数 组 中 相对 应 的 成 员 。 

我 们 再 来 看 inet. create 代码 : 

























































































































































































































































A. qe 
e * 创建 一 个 inet BRT 
Ss E 
4. static int inet_create (struct socket *sock, int protocol) 
Bo A 
(o Serne Sea "S 
Ts Seter Joe aeae “jap 
8. struct inet protosw *answer; 
9. struct inet sock *inet; 
10. struct proto *answer prot; 
11. unsigned char answer flags; 
12. char answer no check; 
13. int try loading module = 0; 
14. int err; 
I 
16. sock->state = SS_UNCONNECTED; 
WE 
18. /* Look for the requested type/protocol pair. */ 
19. answer = NULL; 
20m Lookupmprorocol: 
21. err = —-ESOCKTNOSUPPORT; 
22 
23. list for each rcu(p, é&inetsw[sock->type]) { 
24 answer = list entry(p, struct inet protosw, list); 
28 
由 于 UDPO protocol 为 IPPROTO UDP(17), TCPO protocol A IPPROTO TCP(6). 
if (protocol == answer-»protocol) { 
目前 具有 只 有 RAW IPOprotocol 为 IP (0)， 如 果 应 用 程序 传 入 的 值 也 为 TP (0) ， 那 么 会 直接 走 
到 36 行 
ONS) Eno OC o — uP ERO m@m le) 
Ale break; 
28. } else { 
fr ifconfig 应 用 程序 中 走 这 个 分 文 
OE Wie (UBIO) arl) ==  qSxeeneexeguh) 1i 
S0) - protocol = answer-»protocol; 
dd break; 
32. } 
TE ping 这 种 应 用 (后 面 章节 会 介绍 ) 中 走 这 个 分 支 , (RAT protocol X ICMP (1). MAH, 
如 果 你 使 用 <SoCK_RAW，OSPE (89)> 的 组 合 时 也 会 走 这 个 分 文 ， 即 使 用 IP 层 数 据 传输 。 
33. if (IPPROTO IP == answer-»protocol) 
34. break; RS 
35. ) 这 里 是 Linux 与 其 它 操 作 系 统 不 
在 使 用 <socK_RAW， IP> 的 组 合 时 会 造成 创建 socket 失败 。| 同 的 一 个 地 方 ， 比 如 BSD 或 VxWorks 
36. err = -EPROTONOSUPPORT; 允许 <RAW，IP> 的 组 合 ， 但 其 目的 和 
SE answer = NULL; Linux {{)<DGRAM, IP>—# 
38. } 
39. err = -EPERM; 
40. if (answer->capability > 0 && !capable(answer-»capability)) 
415 COLO CWle_ieewl_ walleye 
在 ifconfig 这 个 例子 中 ,这 个 answer 指向 的 是 UDP, 而 其 ops 指向 inet_dgram_ops, M prot 
JSE] udp_prot 
42. sock->ops = answer->ops; 
43. answer prot = answer-»prot; 
44. answer no check = answer-»no check; 
45. answer flags = answer-»flags; 
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46 . 
47. 
48. err = -ENOBUFS; 
A inode 被 创建 ，sock_alloc 会 从 这 个 inode 中 得 到 socket 结构 。 然 后 初始 化 这 个 socket Zi 
构 的 基 些 字段 。 fasync_list 被 设置 成 NULL。 要 记 住 ，sockets FILEN TCP/IP WE, 












































保存 在 socket 结构 中 的 状态 并 不 与 TcP 的 相似 ，TCP 的 会 更 加 复杂 。socket 状态 实际 上 只 反映 了 是 
否 这 是 一 个 活动 的 连接 。 
49. sk = Sk alloc(PF INET, GFP KERNEL, answer prot, 1); 








50 . 

5I. err = 0s 

52. sk->sk_no_check = answer no check; 

53. if (INET PROTOSW REUSE & answer flags) 
54. Sk-»sk reuse = 1; 

55% 


56. inet = inet sk(sk); 
57. inet-»is icsk = INET PROTOSW ICSK & answer flags; 
































































































































































































































































































































58. 
59. if (SOCK RAW == sock->type) { 
专门 给 RAW IP 设置 了 一 个 端口 号 。 我 们 会 在 下 面 看 到 这 个 端口 号 有 什么 用 。 此 时 num 等 于 1 
(IPPROTO_ICMP ) 
60. inet-»num = protocol; 
61. if (IPPROTO RAW == protocol) 
($2 c inet->hdrincl = 1; 
63h} 
64. 
SSe REESE Con on ti ISI SI) 
66. inet-»pmtudisc = IP_PMTUDISC_DONT; 
67. else 
68. inet-»pmtudisc = IP PMTUDISC WANT; 
GIO 
TWO. anec—Sicl = p 
为 每 个 打开 的 socket 设置 其 等 待 队 列 ， 我 们 会 在 “select 实现 ”的 章节 中 再 次 看 到 它 
71. sock_init_data(sock, sk); 
2s 
73. sk->sk_destruct = inet_sock_destruct; 
74. sk->sk_family -PESINET. 
75. sk->sk_protocol = jouent 
76. sk-»sk backlog rcv = sk-»sk prot-»backlog rcv; 
33 a 
78. if (inet-»num) { 
79. 在 此 我 们 见识 到 num 和 sport 实际 就 是 同一 个 值 ， 只 是 在 使 用 主机 字 节 序 的 情况 下 使 用 num. rfj 
在 网 络 字 节 序 的 情况 下 使 用 sport 
80. /* 我 们 假设 任何 协议 都 允许 用 户 在 创建 socket 的 时 候 指派 一 个 号 码 */ 
Bd inet-»sport = htons(inet-»num); 
82. /* 把 这 个 sock 加 到 协议 hash 链 中 */ 
Sos Sk-»sk prot-»hash(sk); 
84. } 
udp_protDinit 实际 上 等 于 NULL， of d 这 个 应 用 及 所 有 基于 UDP 应 用 程序 而 言 ， 下 再 
的 判断 肯定 不 会 是 真 ， 而 对 于 TCP 和 IP VFA UU 的 init pax f 次 碰 
到 下 面 两 行 static void raw_v4_hash(struct sock ksh) 
S. sic Sot > 
86. err = sk->sk_prot-—>init (sk); d 
87. struct hlist head *head 
88. 
89. PE = &raw. v4 htable[inet sk(sk)-»^num & 
90. return err; (RAWVA4 HTABLE SIZE - 1)]; 
OT Oubarcumunlock: 
92. sk add node(sk, head); 
9)Sk. GOCO OWE; 
94. } 
代码 段 3-3 inet create 函数 
在 这 段 代 码 中 又 发 现 一 个 极 易 引 起 混乱 的 结构 体 名 字 一 一 sock{ }， 它 和 socket{ } 结 构 的 名 字 
只 差 了 两 个 字母 ， 它 和 sock 确实 有 关系 。 为 何 ? socket{} 结 构 表 示 INET 中 的 实体 ， 而 sock{ } 结 
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构 就 是 网 络 层 实体 ， 
示 它 们 之 间 的 关系 。 
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sock 用 来 保存 打开 的 连接 的 状态 信息 。 











6 


般 定义 的 变量 叫 sk。 等 会 就 给 你 演 


socket 系统 调用 的 第 三 个 参数 是 protocol， 在 这 里 它 终 于 派 上 用 场 一 一 赋 给 sk->sk_protocol, 
不 过 ， 在 ifconfig 这 个 应 用 中 ， 它 没有 起 到 作用 。 


backlog_rcv 在 此 根据 协议 分 别 是 tcp_v4_do_rcv，udp_queue_rcv_skb 或 者 是 raw_rcv_skb， 在 


ifconfig 的 这 个 应 用 中 ， 则 是 第 二 个 。 不 过 ， 由 于 目前 只 是 配置 ， 我 就 不 在 这 里 介绍 它 了 ， 而 是 放 








在 后 面 去 分 析 这 个 函数 。 





















































根据 对 sys socket 的 分 析 ， 我 们 可 以 推断 出 file( }、socket{ }、sock{ } 之 间 的 关系 如 下 : 


User 






Kernel 


A 

















fd2-socket( ) 
fd1=socket( ) 


fdn=socket( ) 














VFS Layer 









oe ) 


ie) INET Layer 




































Network Layer 






图 表 3-5file. socket. sock 之 间 的 关系 


会 通过 sock map. fd 指向 一 个 file 指针 。 这 个 文 伯 





Ha ET ORE 














E 护 与 该 socket 相关 联 的 伪 文 件 




















的 状态 。 也 就 是 说 ,不管 你 的 应 用 程序 是 基于 TCP 的 还 是 基于 IP 甚至 是 跟 网 络 传输 没有 关系 ( 例 
如 ifconfig)， 内 核 会 在 INET 和 Network 
而 后 你 对 该 文件 描述 符 的 操作 都 是 通过 这 两 个 数据 结构 的 实体 去 完成 。 因 为 系统 为 每 次 socket 系 
统 调用 都 创建 一 对 <file, socket，sock> 三 元 组 ， 所 以 每 个 应 用 程序 打开 的 每 一 个 文件 描述 符 都 不 会 











会 在 fd 对 应 的 数组 站 








要 分 析 的 ioctl. 


在 inet create PKI 






































层 分 别 创建 一 个 实 








体 来 对 应 你 打开 的 那个 文件 描述 符 ， 








出 现 互 斥 操作 ， 也 就 避免 了 锁 的 开销 。 每 次 应 用 程序 要 访问 内 核 模 块 时 ， 都 通过 fd 去 操作 ， 内 核 
元 内 查找 到 相应 的 socket， 然 后 才能 将 后 继 的 操作 进行 下 去 ， 比 如 我 


门 马上 





数 中 创建 sock{} 的 时 候 调 用 sk_alloc 接口 ， 它 根据 协议 的 类 型 来 创建 真正 的 








“sock” 结 构 ， 因 为 协议 不 同 ， 实 际 创建 的 对 象 不 同 ， 虽然 函数 返回 值 都 是 sock{} 指 针 ， 但 是 实 
际 的 大 小 并 不 相同 ， 比 如 ， 对 于 raw 应 用 ， 我 们 应 该 创建 的 是 raw_sock， 而 对 于 tcp 来 说 ， 应 该 


创建 的 是 tcp_sock， 由 于 在 创建 sock{} 时 就 已 经 根据 协议 类 型 为 其 准备 了 








第 80 页 








足够 大 的 空间 ， 所 以 当 




















进入 到 协议 相关 的 代码 部 分 ， 
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使 


inet_sock 


用 指针 


类 型 强 








inet_connection_sock 




















sock{ } 




















INET 














udp_sock 




















图 表 3-6 sock 结构 在 不 同 协议 的 数据 块 





socket 层 文 持 包括 TCP/IP 协议 在 内 的 internet 地 址 族 。 如 前 所 述 , 这 些 1 
一 个 协议 使 用 另 一 个 协议 的 服务 。Linux 的 TCP/IP 代码 和 数 
socket 层 从 已 注册 的 INET proto_ops 
作 。 例 如 ， 一 个 地 址 族 为 INET 的 BSD 
数 。 为 了 不 把 BSD 
sock， 它 与 BSD 





socket 


socket 结构 相连 。 


与 TCP/IP 的 特定 信 ， 








数据 结构 ! 





调 











用 INET 层 

















faye, INET 
这 一 关系 意味 着 后 来 的 INET 


局 结构 反映 了 这 一 











制 转型 ， 将 其 转换 为 相应 的 数据 结构 。 


tcp sock 








raw sock 























协议 是 分 层 的 ， 


分 层 模型 。BSD 








socket 支持 例 程 来 为 它 执行 工 


socket 


socket 调用 能 够 很 容易 地 重新 


socket 建立 请 求 ， 将 用 到 下 层 的 INET 





a 


socket 的 建立 函 



































找到 sock Zi. sock 结构 的 协议 操作 指针 也 在 初始 化 时 建立 ， 它 依赖 与 被 请 求 的 协议 。 如 果 请 求 


WM TCP, ABA sock 结构 的 协议 操作 指针 将 指向 TCP X1 
上 图 中 演示 了 各 种 协议 下 不 同 sock{} 的 本 质 ， 先 列 出 一 些 相 应 的 强 转 类 型 的 宏 或 函数 ， 给 读 


者 打 好 基础 : 














表格 3-1 sk 宏 的 输入 输出 比较 











接 所 必需 的 TCP 协议 操作 集 。 












































宏 / 函 数 输入 结构 类 型 输出 结构 类 型 

inet_sk sock { } inet_sock{ } 

udp_sk sock { } udp sock(] 

tcp. sk sock{} tcp_sock{} 

raw_sk sock { } raw_sock{} 
3.1.3 ioctl 代码 的 实现 


ioctl 是 标准 库 里 的 


函数 ， 实 际 - 











上 也 就 是 说 大 部 分 操作 系统 都 会 文 持 这 个 系统 调用 。 它 是 内 核 














模块 和 应 用 程序 交互 配置 的 一 种 手段 ， 而 且 















































ERS! 


























。 读 者 们 会 问 ， 
置 的 工作 








什么 交互 手段 不 是 这 权 
的 ， 比 如 读 写 路 由 表 。 先 让 我 们 目光 集中 在 ioctl 上 。 











的 呢 


me 
? 答案 


H, 
Fe 


， 它 是 同步 完成 的 ， 即 它 的 代码 ， 


PE Rb T AAT SERERE 





netlink 接 








。 它 是 异步 完成 配 














3.1.3.1. 配置 设备 IP 地 址 的 内 核 处 理 过 程 

ioctl 函数 在 内 核 中 对 应 的 函数 是 sys_ioctl， 这 个 接口 的 操作 属于 VFS 的 ， 也 就 是 说 系统 不 
分 用 户 要 对 哪 种 文件 系统 进行 ioctl， 只 有 根据 用 户 之 前 打开 的 文件 类 型 来 推断 正确 的 调用 路 径 。 
比如 socket 类 型 的 文件 系统 ， 它 的 ioctl 必定 是 由 socket_file_ops 结构 定义 的 。 内 核 中 具体 的 执行 
路 径 如 下 : 























[x 

































































f op-»unlocked ioctl 就 是 指向 sock_ioctl 
- 根据 打开 的 socket 类 型 
sock->ops->ioctl 分 别 指向 下 面 几 个 ops: 


inet_stream_ops 


inet_dgram_ops 


Y inet sockraw. ops 

inet ioctl 

a GIFADDR i 
DDR 























UR roe SIOCSIFBRDADDR 
SIOCGIFNETMASK 
SIOCDARP 
SIOCADDRT SIOCGARP SIOCSIFNETMASK m 
SIOCSARP SIOCGIFDSTADDR 


SIOCSIFDSTADDR 
SIOCSIFPRLAGS 
SIOCGIFPFLAGS 
SIOCSIFFUAGS 


ip_rt_ioctl devinet_ioctl 


tcp_prot 




















sk->sk_prot->ioctl 








udp_prot 


tcp_ioctl udp_ioctl 


表 3-7ioct 的 内 核实 现 


raw_prot 


raw_ioctl 

















如 果 你 要 编写 关于 网 络 部 分 的 ioctl 应 用 程序 代码 , 那么 专门 有 一 个 数据 结构 来 作为 ioct 的 参 
数 给 你 ， 对 于 标准 的 内 核 ， 你 必须 使 用 该 数据 结构 : 


















































Ifreq 表示 对 接口 操作 的 “请 求 ” 
Il, Seu tee 
Zao al 
9 #define IFHWADDRLEN 6 
4. union 
5 { 

所 有 接口 的 ioctl] 必须 有 以 ifr name 开始 的 参数 定义 

6. char ifrn name[IFNAMSIZ]; Ye Ase Meine; GaGa Veno0w =y 
Ws jp atre sieves 
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下 层 函 数 根据 ioctl 的 命令 字 来 解析 此 联合 的 类 型 和 值 
waon 

SERUCE sockaddr ifru_addr; 
SELICE sockaddr ifru_dstaddr; 
struct sockaddr ifru_broadaddr; 
Steuer sockaddr ifru_netmask; 
struct sockaddr ifru_hwaddr; 
short abigieii ep 
int ifru_ivalue; 
Tn en 
struct ifmap ifru_map; 


char meraes lave IFENAMS IEA | SE Eu es 
char ifru newname[IFNAMSIZ]; 
char = user * qTIru data 


struct if settings ifru settings; 
} 
abigis abire 


he 





代码 段 3-4 ifreq 结构 





这 个 结构 在 内 核 中 也 有 同样 的 定义 ， 所 以 在 devinet ioct 函数 就 用 copy_from_user(&ifr, arg, 
sizeof(struct ifreq)) 这 样 一 条 语句 搞定 ，arg 是 void * 变 量 ， 实 际 在 内 部 实现 中 已 经 变 成 了 unsigned 
long 变量 


























， 也 就 是 指针 变量 。 


al 








Ifconfig 调用 的 ioctl 19 KK SIOCSIFADDR, SIOCSIFFLAGS, SIOCSIFNETMASK. 





下 面 是 devinet ioctl ALM ARAKI: 





int devinet_ioctl(unsigned int cmd, void *arg) 
{ 

So ee aliziep 

GFewuce SOCACH atm aum ne 

struct sockaddr in *sin = (struct sockaddr in *)&ifr.ifr addr; 

struct in device *in dev; 

Siewwiere sin 3bgwelohe an = INDE 

enc teme acces Qa MINUS 

Struct net device *dev; 

char *colon; 

int ret - -EFAULT; 

int tryaddrmatch - 0; 


if (copy from user(&ifr, arg, sizeof(struct ifreqg))) 
GOCO our, 
ifr.ifr name[IFNAMSIZ - 1] = 0; 


/* save original address for comparison */ 
memcpy(&sin orig, sin, sizeof(*sin)); 


Dcolom s Av (itt Vir name, os) 
EREC ol om) 
*noblon = 0: 
eh ita 以 上 省 略 了 GET 的 操作 ， 要 注意 
ret = -ENODEV; 
根据 用 户 指 定 的 设备 名 参数 来 搜索 设备 ， 比 如 “1o” 或 者 “eth0” 
if ((dev = _dev_get_by_name(ifr.ifr_name)) == NULL) 
goto done; 
































































































































































































































如 果 用 户 指定 “eth0: 0” 作 为 参数 ， 就 进入 下 面 的 复制 
LE (eoten) 

“COlLom = Ves 
在 第 一 次 对 进行 设备 配置 时 ， 下 面 获 取 的 in_dev 是 NULL， 因 为 此 结构 的 创建 是 在 后 面 进行 的 
if ((in_dev = __in_dev_get(dev)) != NULL) 

if (tryaddrmatch) { 
WR in_dqev 不 是 NULL， 说 明 曾 经 对 该 设备 进行 过 配 ; 于 是 遍历 in dev 上 的 ifa 链表 ， 根 
据 名 字 和 地 址 进行 匹配 ， 如 果 一 致 ， 说 明 我 们 要 对 同 : -个 设备 进行 操作 ， 在 这 里 我 们 获得 了 ifa. 

for (ifap = in dev -ifa list; (ifa = *ifap) != NULL; 








ifap = &ifa->ifa_next) { 
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34. 
35. 
36. 
ST c 
Sor 
JOE 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
50. 
51b c 
2 
ISo 
54. 
S5 c 
56. 


Bic 
58. 
SY). 
60. 
Gil. 
62. 
63. 
64. 
65. 
66. 
Oils 
68. 
69. 
HO 
Al 
U2. 
Ws 
74. 
US 
TG 


qs 
d c 


TOE 
80. 
9L c 
82. 
83. 
84. 


85. 
86. 


Sie 
88. 
BD 
SOF 
oe 
9 c 
93 
94. 


9c 


if (!strcmp(ifr.ifr name, ifa-^»ifa label) && 
Sin orig.sin addr.s addr -- 
ifa-»ifa address) { 
break; /* found */ 


} 

} 

/* we didn't get a match, maybe the application is 
4.3BSD-style and passed in junk so we fall back to 
comparing just the label */ 

se (ee 4i 





for (ifap = &in dev-»ifa list; (ifa = *ifap) != NULL; 
ifap = &ifa-»ifa next) 
if (!strcemp(ifr.ifr name, ifa->ifa_label) ) 
break; 
} 
} 
ret = -EADDRNOTAVAIL; 
if (!ifa && cmd != SIOCSIFADDR && cmd != SIOCSIFFLAGS) 


goto done; 


switch(cmd) { 


Ix / XT GET 的 操作 就 不 用 看 了 





case SIOCSIFFLAGS: 
Lf o qeolon d 





ret = -EADDRNOTAVAIL; 
aie Ofa) 

break; 
ret = 0; 


alse eia oake se Levels (C Bm 1808) )) 
inet_del_ifa(in_dev, ifap, 1); 
break; 
} 
ret = dev_change_flags (dev, ifr.ifr_flags); 
break; 

















case SIOCSIFADDR: /* 设置 接口 地 址 和 地 址 族 */ 























ret = -EINVAL; 
if (inet_abc_len(sin->sin_addr.s_addr) < 0) 
break; 


fay 











ret = -ENOBUFS; 
申请 一 个 in_ifadqr{} 结 构 ， 并 且 初 始 化 为 0 
if ((ifa = agnet_alloc ifa()) == NULL) 
break; 
如 果 有 冒号 ， 就 把 用 户 设置 的 设备 名 复制 到 ifa 中 ， 否 则 就 用 设备 缺 省 的 名 字 如 “eth0” 



































ECO EOT) 
memcpy (ifa->ifa_label, ifr.ifr_name, IFNAMSIZ); 
else 
memcpy (ifa->ifa_label, dev->name, IFNAMSIZ); 
} else { 
iS. = (e 
根据 32 行 ， 我 们 得 到 了 ifa， 如 果 用 户 输入 的 地 址 和 已 经 存在 的 地 址 一 样 就 跳出 switch 
if (ifa->ifa_local == sin->sin_addr.s_addr) 
break; 
如 果 不 一 样 ， 我 们 要 删 掉 老 的 地 址 ， 记 住 我 们 要 传 入 的 是 原本 就 有 的 ifa 
inet_del_ifa(in_dev, ifap, 0); 
ifa->ifa_broadcast = 0; 
ifa->ifa_anycast = 0; 


















































} 
ifa-»ifa address = ifa->ifa_local = sin->sin_addr.s_addr; 


if (!(dev-»flags & IFF_POINTOPOINT)) { 
根据 IP 地 址 获取 网 络 掩 人 码 长 度 ， 其 值 是 0, 8, 16,24， 然 后 在 根据 其 设置 网 络 掩 人 码 


ifa->ifa_prefixlen = inet abc len(ifa->ifa address); 









































Pots 
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SiGe ifa->ifa_mask = inet make mask(ifa-»ifa prefixlen); 
OT « if ((dev->flags & IFF BROADCAST) && ifa-»ifa prefixlen < 31) 
XS) c ifa-»ifa broadcast = ifa-»ifa address | -ifa-»ifa mask; 


99. ) else { 
如 果 是 点 到 点 设备 ， 其 掩 码 是 32 位 ， 即 全 1 


























TS ifa->ifa_prefixlen = 32; 

MOT ifa-»ifa mask = inet make mask(32); 

102 ) 

103. ret = inet_set_ifa(dev, ifa); 

104 break; 

105 

TOC Chasers ce 

Oe case SIOCSIFNETMASK: /* Set the netmask for the interface */ 
108. as 

HEIN * The mask we set must be legal. 

TOS a 

lg oy c ret = -EINVAL; 

2 ame if (bad_mask(sin->sin_addr.s_addr, 0)) 

Dux break; 

114. ret = 0; 

pu. if (ifa-»ifa mask != sin-»sin addr.s addr) { 
LEG inet_del_ifa(in_dev, ifap, 0); 

Toby s ifa-»ifa mask = sin-»sin addr.s addr; 
D ifa->ifa_prefixlen = inet mask len(ifa-»ifa mask); 
dope inet insert ifa(ifa); 

12200) ) 

Zika break; 

122 } 

1253) done: 

1.772 ces ME ;几乎 什么 也 不 做 ， 就 退出 了 

129 c out: 

LAC. return ret; 

28% rarok: 

128 

129. ret = copy_to_user(arg, &ifr, sizeof(struct ifreq)) ? -EFAULT : 0; 
15304 goto out; 

ie. ) // 函数 结束 





代码 段 3-5 devinet ioctl 函数 








在 上 面 的 switch 语句 SIOCSIFADDR 分 支 中 我 们 分 配 了 in_ifaddr{ } 结 构 ， 然 后 把 它 传 入 下 面 
这 个 函数 inet, set. ifa, 它 的 基本 内 容 是 申请 in_dev{} 结 构 , 然后 把 它 挂 到 ifa 结构 中 ,并 把 这 个 ifa 
存 入 其 源 代码 如 下 : 





O 























1. static int inet_set_ifa(struct net_device *dev, struct in_ifaddr *ifa) 
2 n 

il struct in device *in dev = _ in dev get (dev); 
4. 

He if (lin dev) { 

(GI in dev = inetdev init (dev); 

Up ELM QUT ST 

8c ) 

de if (ifa-»ifa dev !- in dev) { 

OS ifa-»ifa dev = in dev; 

thal 














} 
如 果 是 Loopback 地 址 ， 那 么 该 地 址 的 scope 是 本 机 范围 ， 和 否则 还 是 初始 值 0， 即 UNIVERSE. 
dn Tf (bOOPBACKR(lfa-»ifa localj) 








qui ifa-»ifa scope = RT SCOPE HOST; 
14. return inet insert ifa(ifa); 
dye di 





代码 段 3-6 inet set ifa 函数 





T 

















如 果 在 该 设备 上 没有 找到 相应 的 IP 地 址 配置 ， 就 创建 一 个 in_device 结构 。 











1. struct in_device *inetdev_init (struct net_device *dev) 
Paes a 
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GFP_KERNEL) ; 


创建 一 个 邻居 人 参数， 而且 挂 到 arp tol 上 ， 我 们 会 放 到 ARP 的 一 章 中 介绍 


Sie struct in_device *in_dev; 
4. 
57 in dev = kmalloc(sizeof(*in dev), 
6 
Ta memset (in_dev, 0, sizeof (*in_dev)); 
Sr 
9. memcpy (&in_dev->cnf, &ipv4 devconf dflt, 
LOK in_dev->cnf.sysctl = NULL; 
qu in dev-»dev = dev; 
qa. if ((in dev-»arp parms = 
T3: goto out_kfree; 
14. inet_dev_count++; 
dise /* Reference in dev-»dev */ 
1b 3 
将 ip ptr 指 问 in dev 
TAR dev->ip_ptr = in_dev; 
ILS} c 
IS). outi 
20 return in_dev; 
24. out kfree: 
22 kfree(in dev); 
2% in_dev = NULL; 
24. Oe (GXDUEP 
25 } 


sizeof(in dev-»cnf)); 


neigh parms alloc(dev, &arp tbl)) -- NULL) 





代码 段 3-7 








经 过 这 么 一 番 配 置 ，in_ifaddr{}，net_device{} 和 in_device{} 的 关系 如 下 图 














in_ifaddr{ } 这 个 结构 里 的 成 员 不 会 被 











HH 它 模块 改变 本: 


























inetdev_init 函数 








neigh_parms 


Hift. 











neigh table *tbl 














net device *dev 






































Er je 





net device 


—€— In. ifaddr ue in device 
的 地 址 in_device *ifa_dev T€ 
net device *dev 
B ifa local 
ifa address = in_ifaddr *ifa_li 
ifa next neigh_parms 
Hl *arp_parms 
ipv4_devconf cnf 
pprev net_device <—— 
T USE e, hlist node name hlist 
net device 
M 














图 表 3-8 inet set ifa 之 后 数据 结构 之 间 的 关系 





* 过 上 面 的 分 析 ， 代 码 的 大 致 流程 如 下 : 








arp_tbl 


Liu x26 YORI 





devinet_ioctl 











SIOCSIFADDR Jt Ba cO ER 
























































inet alloc ifa E aes | 
inet_set_ifa 
inetdev_init 
neigh_parms_alloc 




















inet_insert_ifa 




















rtmsg_ifa(RTM_NEWADDR, ifa) 














Y 
blocking notifier call chain(&inetaddr chain, NETDEV. UP, ifa) 














图 表 3-9 devinet ioctl 函数 调用 树 












































首先 调用 rtmsg_ifa 发 送 消息 给 应 用 层 ， 以 至 于 netlink 的 侦 听 函数 会 知道 这 个 新 地 址 ， 然 后 调 
用 通知 链 ， 这 会 触发 对 地 址 分 配 IP 事件 感 兴趣 的 等 候 者 行动 。 
对 ioctl 分 析 也 快 到 头 了 , 但 好 像 还 没 看 到 跟 路 由 有 什么 关系 , 难道 线索 断 了 ? 但 是 我 们 态 了 ， 
blocking notifier call chain 扫描 的 是 inetaddr_chain， 顾 名 思 义 ， 这 是 一 条 链 呀 ， 对 了 ， 还 记得 
在 FIB 初始 化 的 时 候 ， 它 曾经 也 挂 到 了 这 个 链 上 吗 ? 


















































ioctl (SIOCSIFADDR) 


























inet_set_ifa 








fib inetaddr. notifier 





发 送 NETDEV_UP 事 件 


执行 一 次 
fib_add_ifaddr() 














图 表 3-10 inet set ifa £% NETDEV UP 事件 


3.1.3.2.  netlink 和 rtnetlink 接口 

虽然 我 们 还 没有 说 到 路 由 系统 ,但 是 为 了 解释 刚才 看 见 的 netlink broadcast 函数 ， 没 办 法 。 通 

常 ， 在 Linux 里 当 一 个 应 用 程序 想 要 增加 或 删除 一 个 路 由 时 ， 它 会 用 nlmsghdr+rtmsg 结构 并 传 给 

rtnetlink Socket 。 
rtentry 结构 是 UNIX 系统 提供 给 用 户 接口 获取 路 由 的 传统 途径 ， 实 际 上 Linux 内 部 并 不 使 用 

这 个 结构 ， 它 和 BSD 操作 系统 用 作 路 由 ioctl 的 rtentry 相似 ， 只 是 用 来 方便 Linux 和 其 他 UNIX 

变种 的 移植 。 一 个 指向 rtentry 的 指针 作为 参数 传 到 ioctl 系统 调用 ， 然 后 通过 fib_convert_rtentry 
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(int cmd, struct nlmsghdr *nl, struct rtmsg *rtm, struct kern_rta *rta, struct rtentry xD 函数 把 这 个 结构 





的 成 员 分 拆 到 nImsghdr(]. rtmmsg(]. kern_rta{} Zit. 





























oT nImsghdr{} 这 两 个 数据 结构 
通常 都 放 在 一 起 
rtentry{} NE d rtmsg{} 
On, 
kern rta() 








图 表 3-11 rtentry 被 拆 分 成 3 个 部 分 




















访问 FB 的 主要 方法 是 通过 netlink socket， 它 为 路 由 提供 了 扩展 一 一 rtnetlink。netlink 是 一 个 
内 部 的 通信 协议 。 它 主要 用 来 在 应 用 层 和 Linux 内 核 里 大 量 协议 之 间 传 递 信息 。 
























































序 预 内 核 内 部 的 路 由 表 交 换 路 由 信息 。 其 使 用 









































Netlink 实现 了 自 


己 的 地 址 族 一 一 AF_NETLINK， 它 支持 大 多 数 的 socket API 函数 。netlink 最 常用 的 场合 是 应 用 程 
方法 是 先 打 个 socket: 





fd = 


socket(PF_NETLINK, socket_type, netlink_family);socket_type 为 SOCK_RAW 或 者 SOCK_DGRAM 
都 可 以 ， 因 为 netlink 本 身 是 基于 数据 报 的 。 比 较 常 用 netlink_family 有 下 面 儿 种 : 





























@ NETLINK_ROUTE 





€ NETLINK_ARPD 
在 用 户 空 间 中 管理 ARP K. 
€ NETLINK_USERSOCK 

给 应 用 程序 〈 不 一 定 都 是 协议 ) 发 送 的 消息 





























打开 了 socket, 那么 可 以 用 sendmsg 和 recvmsg 给 内 核 或 同 台 主机 应 用 程序 (而 不 是 发 

















用 来 修改 和 读 取 路 由 表 的 ， 这 是 我 们 后 面 要 讨论 的 rtnetlink 问题 . 





主机 ) 发 消息 。 这 些 调用 传递 一 个 指向 nmsghdr 结构 的 指针 〈 见 上 图 )。 
rtnetlink 是 基本 netlink 协议 的 消息 扩展 。 也 就 是 当 创建 PF NETLINK 的 socket 时 ， 把 














netlink_family 设置 为 NETLINK ROUTE。 内核 创 建 了 一 个 轻 量 级 的 socket， 专 门 用 于 接收 来 自用 








户 netlink 接口 发 送 过 来 的 消息 ， 也 接收 内 核 部 分 的 消息 。 














rtnetlink_init 





























这 就 是 rtnetlink 在 内 核 中 


一 的 消息 接收 处 





netlink kernel create(...rtnetlink rcv,...) 








创建 一 个 轻 量 级 的 





socket{} 结 构 








理事 数 





sock_create_lite((PF_NETLINK, SOCK_DGRAM...) 

















创建 netlink 的 








. netlink create 





sock{} 4444) 














会 远 站 


Mg 














register netdevice notifier(&rtnetlink dev notifier) 








图 表 3-12 rtnetlink init & 


& ss 页 





NE 





注册 了 
rtnetlink_event 


处 理事 数 








数 调 用 树 









































码 的 “从 上 到 下 ”顺序 。 
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最 后 一 个 else 语句， 执行 netlink_broadcast， 这 种 











内 核 模块 使 用 netlink broadcast 给 rtnetlink 发 送 消 息 ， 由 rtnetlink_rev 
下 面 继续 解说 inet insert ifa 函数 ， 它 里 面 利 
后 进入 一 个 判断 语句 ， 首 先 判断 inet_fill_ifaddr 函数 执行 的 结果 ， 














技巧 在 内 核 代码 中 比较 常见 ， 而 


函数 接收 并 处 理 。 
了 一 个 C 语言 技巧 ， 首 先 它 创 建 一 个 skb， 然 





H3 























在 大 部 分 情况 下 ， 必定 会 进入 到 


nas 





通常 能 造成 读 


惑 ， 认 为 最 后 一 句 else 的 情况 不 会 到 达 。 这 种 技巧 的 目的 在 于 遍历 各 种 情况 ， 而 且 不 影响 代 

























































































1. static void rtmsg_ifa(int event, struct in_ifaddr* ifa) 
V. iit 
Qu int size = NLMSG SPACE(sizeof(struct ifaddrmsg) + 128); 
4. struct sk buff *skb = alloc skb(size, GFP KERNEL); 
57 
6. ae (hove a reeek (GSR saline, een e O Sane OE OM 
错误 处 理 

gir ) else ( 

下 面 这 个 函数 会 通知 阻塞 在 某 个 net1link 下 的 回调 函数 ,然后 让 它们 进行 处 理 。 不 过 要 注意 ,rtnl 是 

一 个 sock{} 结 构 的 全 局 变量 
Sc netlink broadcast(rtnl, skb, 0, RTNLGRP IPVA4 IFADDR, GFP KERNEL); 
9. ) 
19. j 
代码 段 3-8 rtmsg ifa 函数 
“4 rtnetlink rcv. 接收 到 这 样 一 个 消息 ， 它 会 根据 参数 调用 对 应 的 函数 表 。 在 这 里 它 会 调用 


inet rtm, newaddr PX. inet_rtm_newroute 增加 一 个 新 的 路 | 































































































到 FIB 。inet rtm_delroute 从 FIB 中 
























































































































































































































































删除 一 条 路 由 。 这 两 个 函数 从 紧 跟 nlmsghdr 后 面 的 内 存 中 抽取 rtmsg 结构 ，rtmsg 的 结构 如 下 : 
Ee bKehE. msg 
{ 
uchar rtm_family; 
F 面 两 个 是 ， 用 来 给 AF_INET 类 型 的 地 址 创建 32 位 或 更 小 的 网 络 掩 码 pit 的 位 数 
uchar rtm dst len; 
uchar rtm src len; 
uchar rtm tos; // 对 应 IP 头 部 的 Tos 字段 
uchar rtm table;// 包 含 路 由 表 ID， 如 果 没 有 配置 多 个 表 ， 那 么 就 是 RT TABLE MAIN 
ak RT. TABLE LOCAL. 
uchar rtm protocol; //1H8HJ2& PRN 
表格 3-2 
Protocol Value Purpose 
RTPROT UNSPEC 0 The value is unspecified. 
RTPROT REDIRECT 1 这 条 路 由 是 由 ICMP 重 定向 消息 产生 的 , IPv4 当前 没有 使 
RTPROT_KERNEL 2 这 条 路 由 是 内 核 产 生 的 
RTPROT_BOOT 3 这 条 路 由 是 在 boot 的 过 程 中 产生 的 
RTPROT_STATIC 4 CDS p ERR MAE YY 
RTPROT_GATED 8 这 是 由 网 关 路 由 守护 进程 使 用 
RTPROT_RA 9 Used for RDISC/ND router advertisements. 
RTPROT MRT 10 This value is used by Merit MRT. 
RTPROT ZEBRA 11 由 Zerba 路 由 守护 进程 使 用 (这 个 Zerba 比较 有 名 ) 
RTPROT_BIRD 12 Used by BIRD. 
RTPROT DNROUTED LS Used by DECnet routing daemon. 























uchar rtm_scope; 
uchar rtm type; //# HAA! 


uint Rtm flags;// 可 以 是 下 表 3 个 值 













































































表格 3-3 
p TH. ns 
RTM F NOTIFY x100 通知 用 户 路 由 改变 
RTM F CLONED 0x200 指示 路 由 被 clone 了 
RIM F EQUALIZE 0x400 还 没有 被 实现 。。。。 
} 





代码 段 3-9 rtmsg 机 构 








Rtmsg 结构 的 协议 字段 的 值 如 果 大 于 RTPROT. STATIC, 那么 内 核 不 会 改变 它 , 只 是 在 用 户 和 
内 核 空间 传递 。 它 们 故意 留 着 给 假想 的 几 个 路 由 守护 进程 使 用 。 代 码 里 的 注释 推荐 这 些 值 应 该 标 







































































准 化 以 避免 冲突 。 
3.1.4 Loopback 接口 的 配置 过 程 




































































前 面 一 节 介绍 了 给 本 机 系统 配置 IP 地 址 的 过 程 ， 这 一 节 给 大 家 介绍 一 下 loopback 接口 的 “ 配 







































































IH 
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要 使 Loopback 接口 起 作用 得 分 为 2 个 步骤: 


^ 






































置 ” 过 程 ， 之 所 以 用 引号 ， 是 因为 此 配置 不 完全 是 用 户 自己 控制 的 ， 为 什么 不 先 介绍 loopback 的 
ct 置 ， 原 因 也 在 此 。 上 一 节 我 们 已 经 对 配置 的 过 程 一 步 一 步 做 了 分 解 ， 那 么 我 们 可 以 一 下 子 来 了 
# loopback 接口 的 初始 化 及 配置 过 程 ， 这 也 是 对 普通 设备 的 初始 化 和 配置 过 程 的 一 个 回顾 。 


第 一 步 是 在 系统 初始 化 的 时 候 就 创建 一 个 in_dev{} 结 构 给 loopback 接口 ， 参 照 上 一 节 ， 对 于 


























用 户 配 置 普通 设备 的 IP 地 址 ， 这 个 动作 应 该 是 在 ioctl... > inet. set. ifa PÁ ŽU 









































不 同 设备 的 配置 上 的 区 别 : loopback 设备 是 自动 创建 ， 而 普通 设备 是 “用 户 ” 手 动 创 建 。 
而 其 这 种 自动 还 转 了 一 道 手 , 它 实 际 是 在 ip_netdev_notifier 收 到 NETDEV_REGISTER 事件 后 















































完成 。 这 是 两 种 














才 去 调用 inetdev_init 创建 了 in_dev{f} 结 构 ， 此 函数 请 参考 前 一 节 。 而 普通 设备 则 是 在 ioctl 的 上 下 














文中 调用 inet. set. ifa 函数 创建 的 。 


ip_netdev_notifier 











loopback 创 建 

—4 in_dev 结 构 ， 其 

L| 它 设备 不 关心 
al 











xxx. probe d 














NETDEV^REGISTER fib rules notifier 








dev J^ d 
Notifier Soe = aS sess TM fib rules attach 
netdev chain Sy 











Se rtnetlink_dev_notifier 
EN N rtmsg_ifinfoili 41 
E 户 态 路 由 管理 
模块 









































图 表 3-13 probe 发 起 NET_DEV_REGISTER 事件 

















第 二 个 步骤 就 是 当 系统 初始 化 结束 之 后 根据 系统 本 








cu 
































置 打 开 loopback 接口 ， 使 之 UP. 


如 同 普通 设备 的 操作 ， 系 统 必须 调用 dev_open 打开 looback 接口 ， 从 而 发 送 NETDEV_UP 事 







































































件 给 ip netdev notifier. XÂ notifier 对 于 普通 设备 的 事件 还 是 不 是 太 感 兴趣 ， 啥 也 不 做 ; 但 是 非 
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和 关心 loopback 接口 的 UP 
证 明了 。 
ip_netdev_notifier 的 事件 处 理 函 数 是 inetdev_event， 其 相关 代码 如 下 : 


alin 















































































































































1. inetdev_event 
Des. Hf 
S tes 
4. case NETDEV UP: 
Du if (dev == &loopback dev) { 
6. struct in ifaddr *ifa; 
"s if ((ifa = inet_alloc_ifa()) != NULL) { 
这 里 面 每 个 赋值 都 很 重要 ， 直 接 决 定 Loopback 的 性 质 
INADDR LOOPBACK 宏 就 是 0x7f000001 /* 127.0.0.1  */ 
8. ifa->ifa_local = ifa->ifa_address = htonl(INADDR LOOPBACK); 
9. ifa->ifa_prefixlen = 8; 
105 ifa-»ifa mask = inet make mask(8); 
11, 
T ifa-»ifa dev = in dev; 
该 地 址 是 属于 本 机 范围 的 ， 不 属于 外 部 地 址 ， 我 们 会 在 后 面 说 到 这 个 什 
153. ifa-»ifa scope = RT SCOPE HOST; 
14. memcpy(ifa-»ifa label, dev-»name, IFNAMSIZ); 
Sy 6 inet insert ifa(ifa); 
1L c } 
WH, } 
LS e ee 
19. } 





代码 段 3-10 loopback 设备 对 NETDEV UP 事件 的 处 理 




















fib inetaddr notifier. 





















































ip netdev notifier loopback #l z& 
in_ifaddr t , # 
inet alloc ifa 它 设备 不 关心 
7 inet insert ifa--L—-.. 
IF 
dev. open A 
"a \ 
jf | ! 义 发 了 一 个 fib_inetaddr_notifier 
^ fib netdev notifier NETDEV_UP 事 件 
dev NETOEY UF 循环 执行 ual 执行 一 次 
Notifier pee m = fib_add_ifaddr() fib_add_ifaddr() 
netdev_chain ES rt cache flush() 
N 
X 
ET 所 以 在 初始 化 的 
b T" 时 候 看 到 loopback 
he rtnetlink dev notifier 跑 到 这 里 访问 FIB 表 








\ rtmsg_ifinfo 通 知 
dA AS Ee 
模块 









































图 表 3-14 dev_open 发 起 NETDEV_UP 事件 

















是 否 loopback 设备 的 配置 可 以 改变 ? 可 以 的 ! 让 我 们 跑 到 Linux 的 /etc/sysconfig/ network 日 























HF, CEE f in_ifaddr{ } 结 构 。 这 有 是 loopback 接口 配置 自动 化 的 





值得 关注 的 是 这 段 代 码 又 调用 了 inet insert ifa 函数 ， 它 发 送 NETDEV UP 事件 给 

















录 下 (目前 是 Redhat， 其 它 版 本 的 Linux 不 一 定 是 此 目录 ， 但 都 大 同 小 异 )， 看 到 有 ifcfg-lo KA 





一 个 文件 ， 内 容 如 下 : 
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DEVICE=lo 
IPADDR-127.0.0.1 
NETMASK=255.0.0.0 
NETWORK=127.0.0.0 
BROADCAST=127.255.255.255 
NAME=loopback 











可 以 改变 这 个 1P 地 址 














代码 段 3-11 ifcfg-lo 文件 里 的 内 容 

















你 可 以 改动 这 个 文件 里 的 某 些 项 ， 然 后 执行 节 fup lo 就 把 里 面 的 内 容 作为 ioctl 的 参数 传 给 了 
内 核 ， 把 缺 省 的 配置 改 成 你 想 要 的 。 

上 图 中 看 到 fib_netdev_notifier 收 到 NETDEV_UP 事件 (确切 的 来 说 此 时 只 有 loopback 接口 )， 
于 搜索 in_dev>fa_list 然后 循环 调用 fib_add_ifaddr， 实 际 在 缺 省 情况 下 在 系统 启动 之 后 ， 只 有 
loopback 接口 才 有 in_ifaddr{} 结 构 ， 所 以 这 个 动作 对 于 普通 设备 没有 意义 。 我 们 将 在 下 面 两 节 介 
绍 fib add ifaddr 函数 ， 这 个 函数 非常 重要 ， 它 是 打开 路 由 系统 的 钥匙 ， 请 读者 耐心 等 候 ， 稍 安 勿 


燥 。 



































































































































3.15 IP 别名 的 实现 
上 一 节 说 的 是 用 ifconfig 命令 来 进行 接口 的 地 址 配置 , 这 个 命令 已 经 廉 颇 老 矣 , 更 先进 的 配置 
Lip 命令 。 在 本 节 中 我 们 将 介绍 一 个 叫做 IP 别名 的 概念 。 为 了 能 处 理 卫 别名 ， 所 以 要 引入 

















































































































ip 是 iproute2 软件 包 里 面 的 一 个 强大 的 网 络 配置 工具 ，Iptoute2 是 一 个 在 Linux 下 的 高 级 网 络 
管理 工具 软件 。 实 际 上 ， 它 是 通过 rtnetlink sockets 方式 动态 配置 内 核 的 一 些小 工具 组 成 的 ， 从 
Linux2.2 内 核 开 始 ， 就 实现 了 通过 ttnetlink sockets 用 来 配置 网 络 协议 栈 ， 它 是 一 个 现代 的 强大 的 接 
口 。 最 吸引 人 的 特色 就 是 它 用 完整 而 有 机 制 的 简单 命令 替代 了 之 前 以 下 命令 的 功能 ， 如 
ifconfig,arp,toute,iptunnel， 而 且 还 添加 了 其 它 不 少 的 功能 。 如 今 ，Iproute2 已 经 在 很 多 主要 的 发 行 
版 里 被 默认 安装 。 它 在 配置 隧道 的 时 候 非 常 有 用 。 当 然 本 书 不 打算 讨论 它们 。 我 们 要 讨论 的 IP 别 
名 ， 通 过 iproute2 这 个 工具 可 以 对 它 进 行 设置 。 














前 面 已 经 零 零散 散 的 说 到 了 netlink 技术 ,现在 我 们 又 要 介绍 一 个 和 它 相 关 的 工具 ip 命令 。 
在 剩 下 的 章节 中 我 们 会 常 看 到 ip 命令 的 使 用 。 

IP 别名 有 了 时候 也 称 为 网 络 接口 别名 (network interface aliasing ) 
interface). IP 别名 的 概念 是 ， 可 以 在 一 个 网 络 接口 上 配置 多 个 IP 地 址 。 这 样 就 能 够 在 使 用 单一 
接口 的 同一 个 主机 上 进行 负载 平衡 以 文 持 多 种 服务 。 比 如 你 的 主机 上 只 有 少量 网 卡 接 口 ， 而 又 要 
求 进行 多 路 接 入 的 扩展 ， 你 可 以 如 下 配置 ; 





























































































































Liu x26 YURI 


路 由 器 或 主机 A 






数据 流 y 
4 


交换 机 或 集线器 


图 表 3-15 IP 别名 的 用 途 











主机 B 





假设 A MB 与 服务 器 之 间 的 数据 不 相关 ， 在 这 种 配置 下 ,你 的 服务 器 为 了 给 两 个 不 同 的 请 求 
服务 ， 要 么 使 机 器 上 的 端口 〈 指 TCP/UDP 的 端口 ， 比 如 FTP 使 用 的 21，HTTP 使 用 80) 不 一 样 ， 
要 么 使 机 器 上 的 IP 地 址 不 一 样 一 一 如 果 大 家 都 要 使 用 FTP, 而 且 请 求 端口 还 是 21, 那 只 好 使 用 多 



























































个 逻辑 IP 了。 当然 读者 还 有 更 多 的 解决 方法 , 但 本 书 提出 这 样 一 个 概念 只 是 告 











用 这 种 解决 办 法 ， 而 非 “ 必 须 ”。 
例如 ,如 果 在 物理 单元 号 为 eth0 的 以 太 网 卡 上 已 经 配置 了 一 个 现 有 的 IP 

































































诉 你 Linux “可以” 


地 址 , 那么 可 以 通 


过 添加 一 个 多 辑 单元 号 :1 来 创建 IP 别名 ， 可 以 通过 递增 逻辑 单元 号 来 添加 更 多 的 IP. 地 址 。 





























配置 的 基本 过 程 如 下 : 

段 设 我 们 已 经 有 一 个 1P 地 址 了 ， 如 上 一 节 所 配 192.168.18.2. 

# ip addr add 192.168.0.11/24 label eth0:1 dev ethO 

仿 查 一 下 是 否 设 置 成 功 

# ip addr show ethO 

2: ethO: mtu 1500 qdisc pfifo_fast qlen 100 

link/ether 00:48:54:1b:25:30 brd ff: ff: ff: ff: ff: ff 

inet 192.168.18.2/24 brd 192.168.18.255 scope global ethO 
inet 192.168.0.11/24 scope global secondary eth0: 1 






























































ip addr 命令 和 ifconfig 在 内 核 的 实现 路 径 不 一 致 , 后 者 是 通过 ioctl, 前 者 则 是 通过 netlink 

















消息 接口 ， 内 核 中 采用 inet_rtm_newaddr 来 响应 这 个 消息 。 此 函数 把 应 用 
J 一 次 拷贝 之 后 ， 创 建 in_ifaddr{}， 就 直接 调用 inet insert ifa. 








>% 





层 传 过 来 的 参数 进 








static int inet rtm newaddr(struct sk buff *skb, struct nlmsghdr 
{ 

SIUC ICES ices c Guegp 

struct net_device *dev; 

struct in_device *in_dev; 

struct ifaddrmsg *ifm = NLMSG DATA (nlh); 

SUC alin aLiexeleus abel 

ausge Ee = DINALE 


oO mE CQ) ho 2S 


10. ASSERT RINL(); 


12. if (ifm >ifa prefixlen > 32 | | I!rta[lIFA LOCAL = 11) 
113] 4 goto out; 


in hl, wel saze) 
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ILS 3 
1G. 
ALT s 
18. 
LS) c 
2x0) 
Ze 
22 
De 
24. 
25% 
29 
21 «c 
28. 
DOE 
S08 
Sly 
32 
EE 
34. 
E 
36. 
Sl c 
38 c 
EID 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 








dev = dev get by index(ifm-»ifa index); 

rc = -ENOBUFS; 

if ((in dev = in dev get rtnl(dev)) == NULL) { 
in dev = inetdev init (dev); 

} 

usta neta Ocean 

if (!rta[IFA ADDRESS - 1]) 





rta[IFA ADDRESS - 1] = rta[IFA LOCAL - 1]; 
memcpy(&ifa-»ifa local, RTA DATA(rta[IFA LOCAL - 1]), 4); 
memcpy(&ifa-»ifa address, RTA DATA(rta[IFA ADDRESS - 1]), 4); 
ifa-»ifa prefixlen = ifm->ifa_prefixlen; 
ifa-»ifa mask = inet make mask(ifm-»ifa prefixlen); 
if (rta[IFA BROADCAST - 1]) 

memcpy (&ifa-»ifa broadcast, 

RTA DATA(rta[IFA BROADCAST - 1]), 4); 
if (rta[IFA ANYCAST - 1]) 
memcpy(&ifa-»ifa anycast, RTA DATA(rta[IFA ANYCAST - 1]), 4); 





ifa-»ifa flags = ifm-»ifa flags; 
ifa-»ifa scope = ifm-»ifa scope; 
ifa-»ifa dev = in dev; 


ii (Geta aA WANs = 11] 

rtattr_stricpy(ifa->ifa_label, rta[IFA LABEL - 1], IFNAMSIZ); 
else 

memcpy(ifa-»ifa label, dev-»name, IFNAMSIZ) ; 


rc = inet insert ifa(ifa); 


return rc; 


} 








之 前 就 看 到 了 ， 只 是 没有 给 出 它 的 详细 代码 ， 为 了 要 弄 清 楚 1P 别名 在 内 核 中 的 实现 ， 那 就 得 看 详 

















代码 段 3-12 inet rtm newaddr 函数 





这 段 代 码 是 不 是 和 inet set ifa 函数 很 象 啊 ? 
网 络 设备 管理 层 已 经 为 这 个 机 制 做 好 了 准备 。 让 我 们 来 看 看 曾经 走 过 的 路 。inet_insert_ifa 




















































































































细 代 码 : 
OPES cs shine NeT le n(n I eo Set 39) 
DOs X 

在 这 里 ifa 就 是 根据 应 用 层 分 配 的 地 址 而 创建 的 内 核 地 址 结构 
Sale struct in device *in dev = ifa->ifa_dev; 
BA. Struct sim saliveckhe vac el “less ee 
e GRECE 

假设 该 ifa 是 该 地 址 的 第 一 个 地 址 ， 而 不 是 第 二 个 
54. ifa-»ifa flags &= -IFA F SECONDARY; 
[EN last primary = &in dev-»ifa list; 

开始 遍历 设备 的 地 址 列表 
DIG for (ifap = &in dev-»2ifa list; (ifal = *ifap) != NULL; 
Sd ifap = &ifal-»ifa next) 
5er { 

如 果 链 上 的 地 址 不 是 第 三 个 地 址 并 且 scope 小 于 等 于 列表 上 的 scope, last 指向 下 一 个 地 址 节点 
59. if (!(ifal-»ifa flags & IFA F SECONDARY) && 
60. ifa-»ifa scope <= ifal-»ifa scope) 
Gs last primary = &ifal-»ifa next; 
62. if (ifal->ifa_mask == ifa->ifa_mask && 
633 inet ifa match(ifal-»ifa address, ifa)) 
64 { 
WER Py A dc d 0S JH al f Ae [RI — P. 384: 
如 果 两 个 地 址 一 样 就 退出 

($15) c if (ifal-»ifa local == ifa-»ifa local) { 
66. inet free ifa(ifa); 
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Gu return -EEXIST; 
68. ) 
如 果 两 个 地 址 的 scope 不 一 样 也 退出 
(59). if (ifal-»ifa scope != ifa-»ifa scope) { 
TO inet free ifa(ifa); 
Tals return -EINVAL; 
VD. 





} 
否则 这 个 地 址 就 是 第 二 地 址 ， 也 就 是 说 ， 如 果 第 一 个 节点 不 是 ScoNDARY， 那 么 后 面 增加 的 IP 地 
址 必定 是 SECONDARY 































































































AS ifa->ifa_flags |= IFA F SECONDARY; 
74. ) 
75. 然后 继续 碍 找 符 合 条 件 的 地 址 节点 ， 
3. ) 
HD 
WE. if (!(ifa-»ifa flags & IFA_F_SECONDARY)) { 
75, net srandom(ifa-^»ifa local); 
80. ifap = last primary; 
81 ) 
如 果 设 备 上 的 地 址 链表 是 空 的， 就 把 它 挂 在 后 面 ， 如 果 不 是 空 的 ， 则 根据 上 面 的 判断 把 地 址 放 到 合适 的 位 置 。 
Sos ifa-»ifa next = *ifap; 
0:3. Ee = eey 
84. rtmsg ifa(RTM NEWADDR, ifa); 
S45) c blocking notifier call chain(&inetaddr chain, NETDEV UP, ifa); 
86. 
OE return 0; 
88.) 





代码 段 3-13 inet insert ifa 函数 

















这 里 要 注意 的 是 in_ifaddr>local 和 in. ifaddr2address 在 绝 大 多 数 情况 下 是 一 样 
前 我 没有 找到 不 是 一 样 的 例子 。 有 哪 位 读者 可 以 告诉 我 这 两 者 有 什么 区 别 吗 ? 

上 面 那 段 代 码 完成 的 工作 就 是 把 该 接口 上 的 1P 地 址 组 成 一 条 链表 , 如 果 我 们 在 一 台 机 器 上 为 
某 块 网 卡 设置 5 个 1P 地 址 ， 其 配置 顺序 如 下 : 

# ip addr add 192.168.0.1/24 label eth0:1 dev ethO 

# ip addr add 192.168.0.2/24 label eth0:2 dev ethO 

# ip addr add 192.168.0.3/24 label eth0:3 dev ethO 

# ip addr add 192.168.1.1/24 label eth0:4 dev ethO 

# ip addr add 192.168.1.2/24 label eth0:5 dev ethO 

# ip addr add 192.168.0.4/24 label eth0:6 dev ethO 
ABA WRK in. dev ifa. list 的 组 成 形式 如 下 : 
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Fi 




































































同一 子 网 同一 子 网 


ifa_list a 4 a M > 
Nx 192.168.0.1 }—» 192.168.1.1 —» 192.168.0.2 |—»9 192.168.0.3 —»> 192.168.1.2 —»| 192.168.0.4 
SECONDARY SECONDARY SECONDARY SECONDARY 
























































所 有 的 第 二 地 址 排列 顺序 和 操作 的 顺序 有 关 


图 表 3-16 ifa_list 的 组 织 形 式 









































当 配 置 最 后 一 个 地 址 时 ， 它 还 是 挂 在 链表 最 后 。 
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3.2 ”回顾 FIB 系统 初始 化 

协议 栈 的 初始 化 前 一 章 已 经 大 体 介 绍 了 ， 当 时 把 路 由 模块 的 初始 化 跨 过 时 因为 这 个 模块 最 好 
能 一 次 讲 清 楚 ， 如 果 分 开 来 说 会 给 人 零散 的 感觉 。 为 什么 要 从 配置 IP 地 址 的 章节 开始 呢 ? 是 因为 
在 配置 IP 地 址 时 内 核 就 开始 存 取 FB 系统 了 。 初 始 化 只 是 拱 起 了 一 个 架子 ， 还 只 是 一 有 具 空 达 ， 完 
全 看 不 出 FIB 系统 是 如 何 组 织 和 工作 的 。 在 Linux 路 由 系统 中 主要 保存 了 三 种 与 路 由 相关 的 数据 ， 
第 一 种 是 在 物理 上 和 本 机 相连 接 的 主机 地 址 信息 表 相 邻 表 : neigh_table{ }， 第 二 种 是 保存 了 
在 网 络 访问 中 判断 一 个 网 络 地 址 应 该 走 什 么 路 由 的 数据 表 一 一 路 由 规则 表 : fib_table{ }， 第 三 种 
表 是 最 新 使 用 过 的 查询 路 由 地 址 的 缓存 地 址 数据 表 一 一 路 由 缓存 : rtcache， 由 rtable{ } 节 点 组 成 。 
它们 三 者 之 间 的 关系 如 下 图 : 
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| RT cache Neighbour 


IP ju ù 


图 表 3-17 FIB 和 RT cache 的 关系 





















































上 图 中 FIB 主要 是 和 用 户 层 打交道 ， 而 RT cache 主要 是 和 协议 栈 打 交道 ， 除 非 处 于 维护 的 目 
的 ， 协 议 栈 是 不 会 去 直接 访问 FB 系统 。 在 一 个 基本 稳定 系统 中 ， 红 线 箭头 表示 用 户 操作 流 ， 蓝 
线 箭头 表示 底层 报 文 的 路 由 查询 过 程 。 只 有 特殊 情况 ， 报 文 路 由 过 程 才 会 进入 到 FIB 系统 查询 ， 
这 个 原理 和 CPU 访问 Cache 不 命中 然后 才 访 问 内 存 是 一 个 道理 
现在 回 过 来 看 ip_init， 它 一 上 来 就 调用 ip_rt_init， 为 FIB 搭 好 一 个 空 架子 ; 





























































































































20 

Ail, aga ne ajay xc aues (swell) 

22 

DIOS ime Ge ex p 

24 

25. rt hash rnd = (int) ((num physpages ^ (num physpages»»58)) ^ 
BS « (jiffies ^ (jiffies >> 7))); 

2. 

POR #ifdef CONFIG NET CLS ROUTE 

29 « { 

BOR int order; 

Sil. for (order = 0; 

ee (PAGE SIZE << order) « 256 * sizeof(struct ip rt acct) * NR CPUS; order++) 
33. /* NOTHING */; 

34. ip rt acct - (struct ip rt acct *) get free pages(GFP KERNEL, order); 
35, memset (ip_rt_acct, 0, PAGE_SIZE << order); 

36. } 

Sl c #endif 

38 

39). ipv4 dst ops.kmem cachep - kmem cache create("ip dst cache", 
40. sizeof(struct rtable), 

41. 0, SLAB HWCACHE ALIGN, 
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42 . 
43. 


44. 
45. 
46. 
47. 
48. 
49. 
50). 
Sle 
52. 
D3 
54. 
S9 
SOF 
S1 c 
58. 
DY) 
60. 
(S1. c 
62. 
63. 
64. 
65. 
66. 
($1 « 
68. 
GIR 
OF 
31. 
712: 
Ue 
74. 
EA 
TOs 
R 
78. 
o 
80. 
oes 
82. 
83. 
84. 
85. 
86. 
thc 
88. 
GIOI 
90. 
pl... 
92 c 
93 c 
94. 
95 
SOR 





NULL, NULL); 


缺 省 情况 下 rt_hash_table 的 表 项 是 4000 条 ， 那 么 占用 内 存 16000 字 节 。 分 配 内 存 的 这 个 函数 我 们 
会 在 TCR 初始 化 的 代码 中 再 次 看 到 ， 我 们 这 里 就 不 介绍 了 

















rt_hash_table = 

















(struct rt_hash_bucket *) 


alloc_large_system_hash("IP route cache", 


sizeof(struct rt_hash_bucket), 
rhash_entries, 

(num_physpages >= 128 * 1024) ? 
ils. m. alee 

0, 

&rt hash log, 

&rt hash mask, 

0); 


memset(rt hash table, 0, (rt hash mask + 1) * sizeof (struct rt hash bucket)); 


Yt nash lock. vnb 
ipv4 dst ops.gc thresh = (rt hash mask + 1); 
ss) Seq eb fL = (ew _loerslal_imeysik ar d) w dp 


devinet init(); 
nro aLl6y SLMS Lie () ; 


init timer(&rt 
ie seiko, 3E3UfYSue s 


flush timer); 
De on = see AON SEI Saye 


init timer(&rt periodic timer); 
rt periodic timer.function = rt check expire; 


init timer(&rt 
rt secret timer 


secret timer); 
.function = rt secret rebuild; 


/* All the timers, started at system startup tend 
to synchronize. Perturb it a bit. 


ay 


o 


rt_periodic_timer.expires = jiffies + net_random() % ip_rt_gc_interval + 


ip_rt_gc_interval; 


add timer(&rt periodic timer); 


rt secret timer 


9. 


.expires = jiffies + net random() $ ip rt secret interval + 


ip rt secret interval; 
add timer(&rt secret timer); 


#ifdef CONFIG PROC, FS 


{ 


Siew joicele_ Chit en ik restatipde = ING ( ieee Cee happy A 
if (!proc_net_fops_create("rt_cache", S_IRUGO, &rt_cache_seq_fops) | | 
!(rtstat pde = create proc entry("rt cache", S_IRUGO, 


proc net stat))) ( 


return -ENOMEM; 


} 


rtstat_pde->proc_fops = &rt cpu seq fops; 


} 
#ifdef CONFIG_N 





ET CLS ROUTE 


create proc read entry("rt acct", 0, proc net, ip rt acct read, NULL); 


#endif 
#endif 
returni ney 

















代码 段 3-14 ip rt init 函数 











在 这 个 函数 中 涉及 到 2 个 刚才 提 及 的 表 的 初始 化 : FB 表 和 路 由 表 ， 但 没有 见 到 邻居 表 的 初 











表 在 哪 初始 化 的 呢 ? 





devinet_init() 的 流程 较 简 单 ， 图 示 如 下 : 
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devinet_init 























register_gifconf(PF_INET, inet_gifconf); 























register_netdevice_notifier 
(ip_netdev_notifier) 




















此 函数 主要 是 注册 两 个 事件 通知 回调 函数 ， 前 面 一 个 


图 表 3-18 devinet_init 函数 调用 树 








不 会 介绍 ; 而 第 二 个 函数 注册 的 是 一 个 叫做 ip_netdev_notifier 的 通知 块 ， 其 处 理 函 数 是 
inetdev_event， 即 产生 某 些 事 价 





























TT 


















































ip_fib_init 














图 数 : 
inetdev_event() 





回调 函数 对 于 本 书 没 有 太 多 意义 ， 所 以 




















的 时 候 ， 会 以 通知 的 形式 回 
始 化 例 程 中 第 3 步 和 第 4 步 我 们 有 两 次 发 送 事 
NETDEV UP 事件 ， 这 两 个 事件 都 会 引起 inetdev_event 的 调用 ， 对 此 回调 函 
章 了 ， 在 此 读者 只 需 知 道 我 们 挂 接 了 该 回调 即 可 。 
那 下 面 要 说 的 跟 fib 相关 的 函数 虽然 重要 ， 


件 ， 一 次 是 发 送 NETDEV 


H py ABER VES 


调 此 函数 。 让 我 回想 一 下 在 设备 接口 初 
REGISTER ， 一 次 是 























不 复杂 。 








fib_hash_init(RT_TABLE_LOCAL) 














fib hash init(RT TABLE MAIN) 









































数 的 讲解 我 放 到 下 一 











register_netdevice_notifier(&fib_netdev_notifier) 

















register_inetaddr_notifier(&fib_inetaddr_notifier) 




















ip fib init 注册 了 2 个 通知 块 ， 读 者 们 6 





别 )， 一 个 是 挂 到 netdev chain | 








图 表 3-19ip fib init 函数 调用 树 























J 要 看 清楚 了 (我 当初 就 





























因为 眼花 而 没有 注意 到 这 个 差 
E, MATAR devinet init 函数 也 挂 接 了 一 个 通知 块 在 上 面 ; 另 一 

















个 是 挂 到 了 inetaddr_chain E, 也 就 是 说 , fib 系统 对 设备 相关 的 事件 和 ip 地址 相关 事件 都 感 兴趣 ， 








我 们 会 在 下 面 的 章节 中 对 其 进行 解释 。 回 
一 块 大 内 存 ， 还 指定 这 块 内 存 的 函 树 指名 














过 去 来 看 fib_hash_init， 它 的 作 上 月 
|» 代码 如 F: 



































看 似 也 简单 ， 就 是 申请 
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i, Sieicwieie 33e) eellollke ** shingle Geailey Ineieieylinsiie (um 319) 
Zee NT 
E struct fib table “tbh: 
as 
Be if (fn hash kmem -- NULL) 
on fn hash kmem = kmem cache create("ip fib hash", 
Wo sizeof(struct fib node), 
B 0, SLAB HWCACHE. ALIGN, 
©). NULL, NULL); 
创建 表 项 的 时 候 要 注意 它 的 大 小 是 £ib table 本 身 的 size 加 上 fn_ hash size 
ROR tb = kmalloc(sizeof(struct fib table) + sizeof(struct fn hash), GFP KERNEL); 
i a ances t // 错 误 处 理 
T2 
13. woseo Gl ex allg 
14. tb-»tb lookup = fn hash lookup; 
T5 tb-»tb insert = fn hash insert; 
IEG < tb-»tb delete = fn hash delete; 
Mss tb-»tb flush = fn hash flush; 
iS}. tb-»tb select default = fn hash select default; 
Lg). tb-»tb dump = fn hash dump; 
在 定义 tb. data 的 时 候 , 我 们 不 知道 其 大 小 , 但 是 在 上 面 创建 tb 的 时 候 已 经 为 其 留 下 了 足够 的 空间 。fn_hash 
内 部 实际 上 是 一 个 数组 ， 读 者 可 以 在 “配置 系统 3.1.4” 章 可 以 看 到 它 真 实 面 
zs memset(tb-»tb data, 0, sizeof(struct fn hash)); 
Bal return tb; 
Dake} 





代码 段 3-15 fib hash init 函数 

















读者 们 ， 这 块 内 存 可 不 简单 ， 它 是 我 们 之 前 提 到 的 FIB 表 ， 就 是 所 谓 的 路 由 数据 库 ， 系 统 的 
路 由 信息 全 部 放 在 里 面 。ip_fib_init 初始 化 了 2 个 FIB 表 , 一 个 是 local 的 ， 一 个 是 main 的 ， 到 底 
什么 意思 ， 我 们 在 下 一 节 将 深入 探讨 。 


3.3 RA FIB 系统 


首先 从 路 由 算法 说 起 ， 因 为 老 学 究 们 一 提起 路 由 必 谈 算法 ， 这 里 先 满 足 这 一 部 分 人 。 有 目前 的 
内 核 路 由 存在 两 种 查找 算法 , 一 种 为 HASH 算法 , 另 一 种 为 LC-trie 算法 , 在 配置 内 核 网 络 选项 的 
时 候选 择 "IP: advanced router"， 然 后 进入 "Choose IP: FIB lookup algorithm (choose FIB_HASH if 
unsure)"， 会 看 到 这 两 种 算法 。 如 果 不 选 择 “advanced router”， 那 么 还 是 使 用 hash 算法 。Hash fi 
法 是 目前 Linux 内 核 使 用 的 缺 省 算法 , 对 于 大 多 数 应 用 足够 了 , 而 LC-trie 使 用 最 长 前 级 匹配 算法 ， 
在 超大 路 由 表 的 情况 下 性 能 比 Hash 算法 好 ， 但 它 大 大 地 增加 了 算法 本 身 的 复杂 性 和 内 存 的 消耗 。 
只 可 惜 本 书 不 能 提供 更 多 的 关于 算法 的 知识 ， 让 老 学 究 们 失望 了 。 不 过 我 一 定 要 解释 FIB 表 是 如 
何 被 存 取 的 ， 这 才 是 现实 情况 下 开发 人 员 最 关心 的 事 。 

我 们 注意 到 ip_fib_init 函数 是 放 在 一 个 叫做 fib_frontend.c 的 文件 中 , frontend, 即 前 端的 意思 。 
也 就 是 说 ，FIB 系统 分 为 前 端 和 后 端 ， 前 端 部 分 包含 处 理 一 些 和 外 部 系统 打交道 的 函数 接口 〈 比 
如 rtnetlink socket)， 比 如 初始 化 、 增 删 路 由 、 接 口 地 址 改变 等 。 而 后 端 是 FIB 内 部 逻辑 操作 ， 选 
择 是 否 广 持 路 由 策略 及 哪 种 算法 由 用 户 在 编译 内 核 的 时 候 决 定 ， 但 改变 内 核 之 后 ， 上 层 / 外 部 应 用 
并 不 会 感知 这 种 变化 。 
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INET RTM 模块 
FIB Frontend 
E 
Es FIB rules FIB tables 
5 选择 是 否 支 持 路 由 
= 4. TI JR SUE 
E ] 户 编译 决定 
Z 
FIB HASH FIB LC-trie 











图 表 3-20 Linux 内 核 路 由 模块 结构 


当选 择 高 级 路 由 后 ， 你 还 可 以 选择 是 否 文 持 策 略 路 由 《〈Policy routing), BH Linux 使 用 了 多 个 
路 由 表 来 应 付 有 多 种 路 由 算法 存在 的 情况 , Linux 使 用 多 个 路 由 表 , 使 不 同 策略 的 路 由 存放 在 不 同 
的 表 中 ， 有 效 地 被 免 了 查找 庞大 的 路 由 。 即 使 不 使 用 策略 路 由 ， 出 于 性 能 的 考虑 ，Linux 也 使 用 了 
两 个 路 由 表 ， 一 个 用 于 上 传 给 本 地 上 层 协议 ， 另 一 个 则 用 于 转发 。 从 效果 上 看 ， 假 设 我 们 有 多 个 
路 由 算法 COSPF, RIP, BGP, MARCH) 同时 存在 于 一 台 机 器 上 ， 每 个 路 由 算法 可 以 选择 不 
同 的 FIB 表 作 为 自己 的 内 核 数据 库 , 那么 当 报 文 到 达 IP 层 时 选择 哪 一 个 数据 库 作为 如 何 处 理 ( 转 
A? 送 到 本 机 ? 还 是 丢弃 ) 的 参考 时 ， 就 依靠 一 种 规则 了 。 可 以 是 一 种 算法 存 取 一 个 FIB K, du 
可 以 多 个 算法 存 取 一 个 FIB 表 。 这 就 是 Policy Route。 比 如 说 ， 对 于 本 地 接收 的 报 文 应 该 采用 一 种 
规则 ， 那 么 可 以 为 其 单独 创建 一 个 FIB zs 对 于 组 播 路 由 的 报 文 应 该 采用 不 同 的 规则 ， 也 可 以 为 
其 单独 创建 一 个 FIB K... 
为 了 支持 多 种 路 由 算法 和 多 个 路 由 表 ，Linux 内 核 创造 了 一 个 名 词 : FIB 规则 。 这 个 规则 是 指 
处 理 报 文 时 选取 FIB 表 的 规则 。 规 则 是 策略 性 的 关键 性 的 新 的 概念 。 我 们 可 以 用 自然 语言 这 样 描 
述 规则 ， 例 如 我 门 可 以 指定 这 样 的 规则 : 
规则 一 :“ 所 有 来 自 1.1.1.1 的 耳 包 ， 使 用 路 由 表 253, 本 规则 的 优先 级 别 是 100” 
规则 二 :“ 所 有 的 包 ， 使 用 252 号 路 由 表 ， 本 规则 的 优先 级 别 是 200” 
优先 级 别 越 高 的 规则 越 先 匹配 (数值 越 小 优先 级 别 越 高 )。 路 由 规则 和 FIB 表 之 间 的 关系 如 下 
图 所 示 : 
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fib_local_table sous |} >| | 缺 省 情况 下 
不 使 用 fib_rules , 


. : füdefault rule. 
fib main, table ro Mres 也 不 使 用 fib_tables 
这 几 个 全 局 数组 












































fib_tables — o RT. TABLE UNSPEC 
: : 4£ UE T policy route 

































































” 通过 inet_rtm_newroute 情况 下 才 使 用 
增加 一 个 table fib_tables 和 fib_rules 
fib_local_table 
p A 
253 [RT.TABLE DEFAULT|- 1 
254 | RT TABLE MAIN [| fib local table |$ v. 
255 | RT_TABLE_LOCAL c" i & 
f A fib main table | a 
- P | : ”指向 哪 寺 个 table 
fib_rules@——— YP local rule 入 ‘ i 可 以 任意 指定 





在 fib_rules_init 中 - e 
挂 接 这 几 个 缺 省 的 规则 dl、 


Ny 

















default rule 

















TN 
- new a 


通过 inet_rtm_newrule ~~ o» | 


增加 一 条 规则 














图 表 3-21 FIB 规则 和 FIB 表 的 关系 





























如 果 没 有 配置 Policy Routing， 我 们 也 还 是 有 路 由 规则 的 ， 但 是 ， 这 种 情况 下 的 路 由 选择 相对 
简单 ， 就 是 本 地 和 通 向 相 邻 主机 的 路 由 ， 于 是 在 代码 中 就 不 需要 fib rules 7 CE 2.6.14 的 代码 中 
还 是 用 到 了 这 个 变量 )， 只 是 从 概念 上 为 这 两 种 路 由 划分 了 “规则 ”， 凡 是 本 地 路 由 ， 都 使 用 
fib local table 这 个 数据 库 ， 而 发 往 相 邻 主机 的 路 由 《目的 地 不 一 定 是 相 邻 主机 )， 都 使 用 
fib_main_table 这 个 数据 库 。 



























































































































































la BE UCE ee 



















































































DOES 
FIB 规则 实现 成 一 个 r_next 的 连接 列表 ，r_clntref 时 引用 计数 ， 它 能 够 自动 增加 
Sa Struct dralle) ule ranexte, static struct fib rule default rule = { 
4. Atomic t i& ol oe a r_clntref: ATOMIC_INIT(2), 
路 由 偏好 值 ， 这 实际 上 类 似 于 路 由 规则 的 优先 级 r preference: Ox7FFF, 
5. u32 r preference; r table: RT TABLE DEFAULT, 
下 面 这 个 成 员 的 名 字 不 要 引起 误会 ， 它 实际 更 应 该 叫 oy PONUNT ANT 
table_id， 是 指向 由 此 规则 选择 的 FIB 表 的 索引 ， 











最 大 值 为 255， 这 应 该 够 用 了 
6. uchar r_table; 
与 rtmsg 结构 里 的 路 由 消息 类 型 有 相同 的 值 
F uchar r_action; 
Ss uchar r dst len; 



































static struct fib_rule main_rule 


r_next: &default_rule, 











J- Uchar r sre lenp r_clntref: ATOMIC_INIT (2), 
10. u32 r_src;// 源 地 址 r preference: Ox7FFE, 
NES NEST Cmas)ss r table: RT TABLE MAIN, 
12. u32 r_dst;// 目 的 地 址 r action: RIN_UNICAST, 


13. u32 r dstmask; 
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r srcmap 包含 映射 到 源 地 址 的 地 址 ， 它 用 在 有 地 址 翻译 的 规则 上 
Wao CEA a ATEMA 
15. we x sies static struct fib rule local rule - 
i$. qe sz COSA r next: &main rule, 


在 此 规则 中 使 用 的 网 络 接口 设备 r_clntref: ATOMIC_INIT(2), 









































r table: RT TABLE LOCAL, 
r action: RTN UNICAST, 


IX tnt. Pe index: 
网 络 接口 设备 的 名 字 
18. char r ifname[IFNAMSIZ]; 
l9). alinie se aded 
AQ), Tp 








代码 段 3-16 fib rule 结构 


























^ 3 个 fib rule 实体 去 选择 “永久 的 ”FIB R: main K, local 表 ， 如 果 没 有 指定 的 表 ， 则 选 
择 缺 省 的 表 。 当 定义 了 一 个 新 的 FIB 规则 后 ， 它 会 加 到 链表 的 末尾 。 

缺 省 规则 表 的 table 号 是 233， 指 向 fib tables 的 第 253 号 单元 。 依 次 类 推 ，Main 表 规 则 的 号 
码 是 254，Local 表 规 则 的 号 码 是 255， 分 别 指向 了 fib tables 的 相对 单元 。 












































SUM SCIT ALAS 删除 、 查 找 规则 呢 ? 其 实 这 是 由 应 用 程序 使 用 ttnetlink 接口 来 操作 ， 首 先 通 
过 从 用 户 空 间 传递 nd 消息 到 内 核 。nlmsghdr 结构 放 在 ttmsg 结构 前 面 ， Bie 了 用 来 确定 使 
用 什么 规则 的 大 部 分 信息 。 内 核 ttm 模块 对 这 些 消 息 进行 解析 ， 然 后 对 应 到 合适 的 函数 ， 如 图 中 ， 
当 要 增加 一 条 路 由 规则 时 ， 就 调用 inet_rtm_newrule， 把 新 增 的 规则 挂 接 到 fib rules ££ E, Je RZ 
增加 一 个 FIB 表 ， 就 调用 inet rtm newroute, 并 且 参 数 中 要 指定 创建 一 个 新 表 ， 如 此 就 把 新 增 FIB 
ABA fib tables 中 。 由 于 这 些 不 是 我 们 的 研究 重点 ， 所 以 我 们 可 以 跨 过 


























知道 路 由 规则 是 干什么 的 了 ， 那 么 我 们 可 以 下 断言 了 : 查找 路 由 规则 是 查找 路 由 的 第 一 
是 的 ， 要 查找 路 由 则 必须 先 搜 索 fib. rules 以 找到 最 匹配 报 文 规则 ， 必 须 同时 满足 4 SAR 
1. 报 文 源 地 址 与 规则 涵盖 的 源 地 址 属于 同一 子 网 
2. 报 文 目的 地 址 与 规则 涵盖 的 目的 地 址 属于 同一 子 网 
3. 报 文 头 设置 的 TOS CURAE T tos 路 由 的 话 ) 与 规则 设置 的 一 致 
4. 报 文 始终 的 网 络 接口 设备 (如 果 指 定 了 接口 的 话 ) 与 规则 设置 的 一 致 

如 果 满 足 这 4 个 条 件 ， 即 搜索 到 一 条 这 样 的 规则 ， 找 到 了 规则 才能 找 FIB 表 。 然 后 检查 规则 
HHY r action, 如 果 我 们 为 这 样 的 action 预备 了 一 个 FIB 表 , 那么 我 们 就 得 到 正确 的 FIB 表 去 搜索 
路 由 。 对 于 缺 省 情况 ，r_action 都 是 RTN_UNICAST， 所 以 ，local 表 和 main 表 是 可 以 被 搜索 的 。 

( 注 ， 上 面 所 说 是 2.6.14 之 前 的 代码 运行 原理 ， 而 2.6.18 之 后 的 代码 已 经 不 这 么 折腾 了 。 在 
缺 省 情况 下 ， 不 搜索 FIB 规则 链表 ， 直 接 去 搜索 local WH main 表 。 我 们 会 在 下 一 章 介 绍 ) 
找到 了 FIB 表 ， 我 们 就 可 以 调用 FIB 表 的 自身 的 lookup 函数 ， 这 类 似 于 C++ 中 的 概念 : 成 员 
函数 只 能 访问 类 本 身 的 成 员 变 量 。 现 在 搜索 FB 表 就 是 查找 路 由 的 第 二 步 。 

问题 是 FIB 表 本 身 不 是 由 一 个 数据 结构 表示 ， 而 是 由 多 个 结构 组 合 而 成 。 前 面 说 到 我 们 缺 省 
使 用 HASH 算法 进行 查找 ,那么 所 谓 的 hash 就 在 此 刻 出 现 了 , 而 对 于 使 用 LC-trie 算法 的 FIB 表 ， 
我 们 不 会 看 到 hash 这 么 一 个 数据 结构 。 所 以 只 能 说 ， 采 用 hash 算法 的 FIB 表 系 统 是 一 个 分 层 的 
结构 组 合 。 

下 面 看 FIB 内 部 数据 结构 定义 。 
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1. struct fib table 
ZIEL 
tb_id 字 段 是 表 的 id， 如 果 配 置 了 多 个 表 ， 它 的 值 在 1 到 255 之 间 。 如 果 没 有 配置 多 个 表 ， 则 只 会 
RT TABLE MAIN 或 RT_TABLE_LOCRAL，tb_stamp 目前 没有 使 用 
uchan a EDIE 
uint tb stamp; 































































































第 102 页 


{ 





Linux2.6 协议 栈 源 代 码 分 析 








从 表 中 获取 所 有 的 路 
操作 


选择 缺 省 的 路 


Se 
2m 





ikine (ils Ikexeyieibyoy)) f oe 
Uitte te LECInmeernt e 
int (*tb delete)(.. 


. ) 7 
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5g 








， 这 主要 
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wae (aro rlan) (aaa) 



































IR fib table 中 所 有 的 表 项 


void (*tb_select_default) 
tb data 是 指向 hash 表 项 的 一 个 不 透明 指针 ， 此 表 中 的 其 他 函数 操作 此 字段 ， 它 不 能 被 直接 访问 。 


uchar tb data[0]; 


rtnetlink 使 用 























inet_dump_fib 调用 








nt 








最 后 一 个 数据 成 员 是 tb. data[0], 它 利 月 
当 用 hash 算法 时 ， 这 个 数据 成 员 就 是 一 个 fn_hash{} 结 构 : 而 当 使 有 
trie{} 结 构 ， 这 样 可 以 充分 节省 空间 。 为 什么 不 用 void* 指 针 呢 ? 
就 已 经 为 这 些 数据 结构 预 留 了 空间 ， 避 免 了 有 
的 fib hash init 第 10 行 )。 如 下 


代码 段 3-17 fib_table 结构 




















日 了 编译 器 的 一 些 特 点 ,专门 有 








日 来 存放 未 知 大 小 的 数据 。 















































图 : 











ip fib local table 


或 者 ip fib main table 





fib table 


H 








IX 


























ip fib local table 


或 者 ip fib main table 





fib table 

































































unsigned char tb id unsigned char tb id 
int (*tb_lookup)(...) int (*tb_lookup)(...) 
int (*tb insert)(... int (*tb insert)(... 
tb. data[0] P uem. tb. data[0] See X) 
fn zone *fn zones[0] node *trie 
fn zone *fn zones[1] trie int size 
fn hash uint revision 
fn zone *fn zones[32] 
fn zone *fn zone list 
使 用 hash 算 法 的 FIB 表 使 用 LC-trie 算 法 的 FIB 表 






































图 表 3-22 不 同 算法 的 fib_table 的 结构 不 同 

















































































































































































































] LC-trie 算法 时 ， 它 却 是 一 个 
因为 在 创建 一 个 fib_table 的 同时 ， 
请 内 存 ， 操 作 起 来 也 方便 (请 仔细 观察 上 面 





Linux 的 FIB 表 是 分 层 的 ， 从 逻辑 上 来 看 可 以 分 为 5 层 : 

第 1 层 : 根据 本 地 路 由 与 否 ， 分 为 local FIB 库 和 main FIB 库 ， 这 容易 被 大 家 忽略 

第 2 层 : FIB 表 中 的 fn hash 数组 由 33 个 _zone{} 结 构 的 指针 组 成 。 它 将 所 有 的 路 由 根据 子 网 掩 
人 码 (netmask) 的 长 度 (0~32) 分 成 33 个 部 分 (struct fn_zone )， 每 一 个 zones 代表 一 个 唯一 
确定 的 netmask. fn hash 习 最 后 一 个 成 员 指 问 掩 码 最 长 的 zone 区 ， 这 有 什么 用 呢 ? 我 们 在 
查找 出 口 的 那 一 章 会 告诉 各 位 答案 ! 

第 3 层 : ”fn_zone{} 也 有 一 个 hash 表 ， 凡 子 网 捧 码 长 度 都 相同 的 路 由 都 放 在 其 中 ,hash 表 的 节点 叫 
fib_node{}， 比 如 10.1.1.0/24 和 10.1.2.0/24 挂 到 了 同一 个 fn. zone 的 链表 上 。 

第 4 层 : ”在 同一 子 网 中 , 有 可 能 由 于 TOS 等 属性 的 不 同 而 使 用 不 同 的 路 由 ,那么 每 一 个 fib. node( 


节点 有 一 个 链表 存放 以 fib_alias{ } 结 构 为 节点 的 路 1 
也 必须 有 一 个 fib_alias{} 保 存 路 由 的 tos、 类 型 、 范 




































































围 等 属性 ， 不 过 


表 项 , 即使 某 fib_node 上 只 有 


























条 路 | 
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但 到 此 层 还 没有 指出 下 一 
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跳出 口 。 
$85] fib_alias{} 只 包含 一 个 fib_info{} 结 构 ， 此 结构 包括 一 些 相 应 的 参数 ， 如 协议 ， 下 一 跳 主 
机 地 址 、 外 出 的 接口 设备 等 等 ， 这 就 是 第 5 层 。 
分 层 的 好 处 是 显而易见 的 ， 它 使 路 由 表 的 更 加 优化 ， 风 辑 上 也 更 加 清 淅 ， 并 且 使 数据 可 以 共 
*& CHN struct fib_info)， 从 而 减少 了 数据 的 元 余 。 下 面 我 们 一 级 一 级 的 列 出 这 几 个 结构 的 定义 。 
先 上 fn_zonef} 的 结构 ， 包 含 所 有 同 长 度 子 网 掩 码 的 路 | 











































































































SC Om 
指向 下 一 个 zone 的 指针 , 比如 目前 是 £n. zone [24]; 如果 fn_zone[16] 有 路 由 而 16 到 24 都 没有 路 
则 指向 fn_zone[16] 





































































































2 GnESeIbKO E enzone Gey lS edP 
这 个 hash 表 结 构 才 是 体现 这 是 HASH 算法 的 地 方 。 
She struct hlist head  *fz hash; 
表示 在 此 zone 的 入 口 〈 实 际 就 是 fib_nodqe{}) 的 个 数 
4. int fz nent; 
和 此 zone 相关 的 £z. hash 表 的 桶 数 ， 大 多 数 zones 都 有 16 个 ， 故 此 值 为 16, 但 0 zone 除外 ， 它 的 
值 为 1 
So aigue, IEA feli SO By 
进入 fz_hash ff) mask, 一 般 为 fz_divisor - 1 
($c 101912 fz hashmask; 
Tie #define FZ_HASHMASK (fz) ((fz)->fz_hashmask) 
表示 该 zone 处 于 fn hash 表 的 什么 位 置 
‘on int fz_order; 
该 zone 所 表示 的 掩 码 区 ， 例 如 16 位 子 网 则 是 0xFFFF， 如 果 是 24 位 ， 则 是 0xFFFFFFF 
95 1519122 fz mask; 
1500) #define FZ MASK(fz) ((£z)-»fz mask) 
dal ag 





代码 段 3-18 fn zone 结构 














每 个 路 由 的 节点 fib_node{}， 这 个 结构 非常 小 ， 但 是 却 是 所 谓 HASH 算法 的 来 源 ， 请 注意 那 
个 fn_key， 它 就 是 找到 对 应 的 hash 节点 的 键 值 : 















































IA. Sheree iE3lle) imoxekes | 
































链 到 fz hash 的 节点 ， 注 意 不 是 fn_alias{}f hash 链 
3% struct hlist_node fn hash; 
这 个 才 是 挂 接 fn_alias{} MER 
14. struct list_head fn_alias; 
下 面 这 个 成 员 是 最 重要 的 值 ， 实 际 上 就 是 路 由 查找 的 关键 ， 我 们 会 在 后 面 详 述 
ED es u32 fn key; 
IG. He 





代码 段 3-19 fib node 结构 
































如 果 有 不 同 的 tos， 那 么 节点 可 能 有 多 个 fib_alias{}， 不 过 其 路 由 节点 的 属性 其 实 是 放 在 这 个 
结构 中 ， 这 里 又 看 见 一 个 “alias” 单 词 ， 它 不 是 指 别名 的 意思 ， 而 是 指 到 达 同 一 路 由 的 不 同 路 径 
合 〈 我 个 人 的 意见 : 有 必要 为 了 tos 而 专门 设置 一 条 链表 吗 ? )， 要 匹配 这 样 一 个 alias， 要 有 
唯一 确定 的 3 元 组 :< 地 址 ,tos，Ppriority>, 其 中 地 址 可 以 顺 着 fib_node 找到 , 而 后 面 两 个 是 fib_alias{ } 
独 有 的 ， 下 一 节 我 们 还 会 看 到 这 三 元 组 : 
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i, Seibel sestloy cilatewe di 
链 到 £ib node>fn_alias 链 的 节点 
2. re oy 


关于 此 结 点 的 更 多 的 信息 
































5) tr ue rip ants Sare HOR 
4. us fa_tos; 

路 由 类 型 
Sa wis fa_type; 
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表格 3-4 
Route Type Value Route Types Explanation 
RTN_UNSPEC 0 Route is unspecified. This is a gateway or direct route. 
RTN_UNICAST 1 This route is a gateway or direct route. 
RTN_LOCAL 2 在 输入 的 时 候 接收 这 样 的 报 文 
RTN_BROADCAST 3 On input, accept packets locally as broadcast packets,and 
on output, send them as broadcast. 
RTN_ANYCAST 4 Accept input packets locally as broadcast, but on output, 
send them as unicast packets. 
RTN_MULTICAST 5 这 是 一 条 组 播 路 
RTN_BLACKHOLE 6 黑洞 路 由 ， 丢 掉 这 些 报 文 
RTN_UNREACHABLE 7 的 不 可 达 
RTN PROHIBIT 8 管理 员 禁 止 了 这 条 路 
RTN_THROW 9 比 路 由 不 在 这 个 FIB 库 中 
RTN NAT 10 使 用 NAT 协议 转换 这 个 地 址 
RTN XRESOLVE 11 使 用 外 部 解析 协议 确定 这 条 路 
路 由 范围 
Go ws fa scope; 
表格 3-5 
4 1H. scope 描述 
RT SCOPE UNIVERSE 0 当 一 个 地 址 可 以 在 任何 地 方 使 用 时 scope X universe, “RAF 
面 儿 种 情况 时 就 是 该 值 
RT_SCOPE_SITE 200 | 在 一 个 本 地 封闭 系统 中 的 内 部 路 
RT_SCOPE_LINK 253 | 当 一 个 地 址 只 在 一 个 局 域 网 内 有 意义 且 只 在 局 域 网 内 使 用 时 ， 比 如 
子 网 广播 地 址 
RT_SCOPE_HOST 254 | 当 一 个 地 址 只 用 于 主机 自身 内 部 通信 时 scope 为 host， 该 地 址 在 
主机 以 外 不 知道 并 且 不 能 被 使 用 ， 比 如 我 们 配置 的 192.168.1.2 
和 127.0.0.1 地 址 都 是 这 种 
RT_SCOPE_NOWHERE 255 的 地 址 不 存在 
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8. 








bp 








此 路 
u8 


he 





的 状态 ， 





前 只 




































































FA S ACCESSED 和 0 WME, RAH 0， 如 果 被 搜索 过 ， 则 是 前 者 。 


fa state; 





在 这 个 结构 中 我 们 接触 到 几 个 名 词 : 
Scope: 在 Linux 中 ， 路 | 
Type: 其 实 指 得 是 主机 如 何 处 理 路 由 








代码 段 3-20 fib_alias 结构 














的 scope 表示 到 目 


























如 果 是 unicast， 很 可 能 转发 。 

















































































































的 网 络 距 离 的 一 种 分 类 。 
， 例 如 当 发 现 此 路 由 类 型 是 














local In , 则 应 该 上 报 ， 
















































































































































































路 由 类 型 和 路 由 范围 有 一 定 关系 。 回 忆 之 前 给 设备 分 配 设备 的 时 候 ， 都 是 设置 为 RTN_LOCAL， 
那么 到 达 该 IP 地 址 的 路 由 范围 肯定 是 RT_HOST， 如 果 应 用 层 路 由 协议 比如 OSPF 往 内 核 中 设置 
一 条 到 远 端 主机 的 路 由 ， 那 么 类 型 可 以 是 RTN_UNICAST， 那 么 范围 很 可 能 是 RT_SCOPE_ 
UNIVERSE。 后 面 的 章节 将 给 出 明证 。 

在 fib_semantics.c 这 个 文件 中 有 一 个 fib props 结构 数组 , 对 我 们 了 解 两 者 之 间 的 关系 有 一 定 帮助 : 
b> ecu OO M SIEG 

2 { 

500 

4. u8 scope; 

5. } BEBBENENGSSSS[RTA MAX + 1] = { 

6. }, /* RIN UNSPEC 类 型 的 报 文 路 由 范围 是 NOWHERE */ 





A^ 


第 105 页 
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he 





.error = 0, 
.Scope = RT SCOPE UNIVERSE, 


/* RTN UNICAST 类 型 的 报 文 路 由 范围 是 UNIVERSE* / 






















































































.error = 0, 

.Scope = RT SCOPE HOST, 

/* RIN LOCAL 类 型 的 报 文 路 由 范围 是 HOST */ 
.error = 0, 

.Scope = RT SCOPE LINK, 

/* RTN BROADCAST 类 型 的 报 文 路 由 范围 是 LINK*/ 
oe 0, 

.Scope = RT SCOPE LINK, 























/* RTN ANYCAST 类 型 的 报 文 路 由 范围 是 LINK*/ 











.error = 0, 
.Scope = RT SCOPE UNIVERSE, 


/* RTN_MULTICAST 类 型 的 报 文 路 由 范围 是 UNIVERSE*/ 
































.error = -EINVAL, 
.Scope = RT SCOPE UNIVERSE, 
/* RTN BLACKHOLE */ 





.error = -EHOSTUNREACH, 
.Scope = RT SCOPE UNIVERSE, 
/* RTN UNREACHABLE */ 








.error = -EACCES, 
.Scope = RT SCOPE UNIVERSE, 
/* RTN PROHIBIT */ 


.error = -EAGAIN, 
.Scope - RT SCOPE UNIVERSE, 
/* RTN THROW */ 





.error = -EINVAL, 
.Scope = RT SCOPE NOWHERE, 
/* RTN. NAT */ 





.error = -EINVAL, 
.Scope = RT SCOPE NOWHERE, 
/* RTN XRESOLVE */ 








fib_info{} 包 含 关于 一 个 接口 的 协议 和 特定 的 硬件 信息 ， 并 且 对 于 一 些 zones 是 
个 目的 网 络 可 以 同时 经 过 同一 个 接口 出 去 。 


代码 段 3-21 fib_props 数组 定义 
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因为 几 









Netmask Table 
(struct fn hash) :  (structífn zone) : (struct fib node! 


fn. zones[32] 


Main/Local Tables 


(struct 
fib table) 
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Network Zones 










一 






fz next 
fz hash 
fz mask 






Network Information 


(struct fib info) 


| fib protocol 
fib metrics 
fib nh[] 


f fib protocol 
fib metrics 
fib nh[] 


图 表 3-23fib table #0 fn zone. fib node 结构 的 关系 


























fib prefsroc 是 一 个 偏向 使 用 的 源 地 址 ， 参 照 RFC1122 Xi 


. #define fib window fib metrics[RTAX WINDOW-1 





























a 








应 报 文 的 源 地 址 。 














unsigned fib metrics[RTAX MAX]; 


tu fib metrics[RTAX MTU-1] 


il. STAU icio) Mona) 
Bo 4 
Ba Seine E UDENFOR E DANNET; 
4. Sta ee rae No Ful nev 
lox int fib treeref; 
6 atomic_t fib_clntref; 
dic int fib dead; 
So unsigned fib flags; 
指示 本 路 由 是 哪个 模块 来 创建 

oF WME IEW Tre OE OYe LE 

为 一 个 “指定 目的 地 址 ” 被 UDP HE 
1L() WDA Ail AGES ISP 
elles (9 illo Oe 
1276 
13. #define fib m 
14 
15. #define fib r 


Eng Ee eS A 





































































































的 ， 其 值 束 是 rtmsg>rtm_protocol, iE 





照 前 一 节 的 介绍 








HF UDP multihoming 部 分 ， 它 作 



































16. #define fib_advmss fib_metrics [RTAX_ADVMSS-1 
fib_nhs 是 下 一 跳 的 数量 ， 如 果 该 路 由 有 一 个 已 定义 的 网 关 ， 则 应 该 是 1; 否则 它 就 是 0。 但是， 如 果 
配置 了 多 路 径路 由 ， 则 它 有 可 能 大 于 1。 
DES Int rbnhss 
fib nh 包含 关于 下 一 跳 或 下 一 跳 链表 的 信息 ， 如 果 超 过 一 个 的 话 。fib_gev 是 特 指 到 达 下 一 跳 主 机 
的 网 络 接口 设备 。 
ee BErUucE tub nn frb:nah[Ols 
19. #define fib_dev fib_nh[0].nh_dev 
AO } 
代码 段 3-22 fib info 结构 
顺便 也 介绍 fib. nh 数据 结构 ， 通 过 路 由 机 制 去 抽取 关于 下 一 跳 或 网 关 的 信息 去 修改 它 。 
Ik, SHES GNSS, ao 
DN 
She struct net_device *nh_dev; 
4. uint nh_flags; 
nh scope 和 fib alias 结构 里 的 scope 字段 相似 ， 它 并 没有 真正 定义 路 由 的 范围 ， 而 是 概念 上 到 
目的 主机 的 距离 ， 在 这 种 情况 下 ， 是 网 关 。 
Se uchar nh_scope; 
输出 到 网 关机 器 接口 的 索引 号 
($c sige; olm alice 
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代码 段 3-23 fib nh 结构 

















这 一 节 完 整 的 讲述 了 FIB 表 的 组 成 结构 ， 可 能 读者 们 一 下 子 还 没有 明白 是 什么 意思 ， 那 我 们 
先 继续 配置 的 例子 ， 把 FIB 的 故事 继续 讲 完 。 给 大 家 一 个 感性 的 认识 。 





























3.4 FIB 系统 发 生 了 什么 样 的 变化 
上 次 说 到 当 给 设备 设置 IP 地 址 的 的 时 候 ， 内 核 给 inetdev chain 通知 链 发 送 了 一 个 
NETDEV UP 事件 ，FIB 系统 正好 对 这 个 事件 感 兴趣 ， 就 把 下 面 这 个 结构 注册 到 了 inetaddr chain 












































static struct notifier_block fib_inetaddr_notifier = { 


.notifier call = fib_inetaddr_event, 


}; 








为 什么 FIB 系统 会 对 这 个 事情 感 兴趣 ? 因为 给 设备 分 配 IP 地 址 相对 于 给 系统 增加 一 条 type 为 
RTN_LOCAL 的 路 由 ,其 路 由 范围 是 RT_SCOPE_HOST, 没 错 吧 ? 给 系统 增加 IP 地 址 ， 其 实 也 就 
和 路 由 软件 (OSPF、RIP 等 ) 往 内 核 里 增加 路 由 表 项 一 样 ， 基 本 的 流程 相同 ， 只 是 个 别 参 数 不 同 
而 已 (我 甚至 觉得 ， 路 由 可 以 理解 为 地 址 ， 区 别 在 于 这 是 别人 的 地 址 @， 以 后 如 果实 在 不 理解 路 
Ha AR, 你 就 把 它 认为 是 别人 的 地 址 就 得 了 )。 重 点 在 这 里 是 你 了 解 了 FIB 系统 是 如 何 增删 路 由 
表 项 的 。 











其 回调 函数 就 是 fib_inetaddr_event， 此 函数 如 果 收 到 NETDEV_DOWN 消息 ， 它 就 删除 FIB 
中 存在 的 地 址 ， 如 果 ifa_dev>ifa_list 是 空 ， 则 disable 这 个 设备 ， 和 否则 就 刷新 一 下 路 由 cache QE 
意 ， 这 里 是 路 由 cache， 不 是 FIB K): 



















































































fib_inetaddr_event 








NETDEV-UP event NETDEV DOWN 








fib add ifaddr fib del ifaddr 
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— ifa-sifa dev-»ifa ist —- 
~ ==NULL oen 
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rt cache flush(-1) fib disable ip 

















表 3-24fib inetaddr. event 函数 内 部 实现 





















































很 明显 , 目前 的 流程 是 走向 了 左边 。 其 参数 就 是 inet insert ifa 中 传 入 的 ifa。 我 们 只 是 访问 其 
成 员 变 量 ， 而 不 再 更 改 。 
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A. orem ll te abb bxrexelohe “aL ice) 
Sanat 

4. struct in device *in dev = ifa-»^»ifa dev; 
De struct net device *dev = in_dev->dev; 
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6 . Gembor Ai _siteclelie On e» abe 
Va u32 mask = ifa->ifa_mask; 
OP u32 addr = ifa-»ifa local; 
OF u32 prefix = ifa-»ifa address&mask; 
mos 
ii c if (ifa->ifa_flags&IFA_F_SECONDARY) { 
2 prim = inet_ifa_byprefix(in_dev, prefix, mask); 
Pea PUE 
T4. } 
如 果 是 loopback 接口 配置 ，addr Æ 127.0.0.1, MACH PIF +H 192.168.18.2 
dbase (D fib magic (RTM NEWROUTE, RTN LOCAL, addr, 32, prim); 
Les 
dom if (!(dev-»flags&IFF UP)) 
iL s return; 
ILS), 
20 /* Add broadcast address, if it is explicitly assigned. */ 
zd if (ifa-»ifa broadcast && ifa-»ifa broadcast != OxFFFFFFFF) 
ifa-»ifa broadcast 是 192.168.18.255， 而 对 于 loopback 接口 是 不 会 进入 这 一 行 
Zoe © fib magic (RTM NEWROUTE, RTN_BROADCAST, ifa-»ifa broadcast, 32, prim); 
DIS 
24 if (!ZERONET (prefix) && !(ifa-»ifa flags&IFA F SECONDARY) && 
25 (prefix != addr | ifa->ifa_prefixlen « 32)) { 
第 二 个 参数 Loopback 接口 是 RTN_LOCAL, prefix 是 127, 而 配置 例子 对 应 的 是 RTN_UNICRAST， 
Prefix 是 192.168.18， 这 导致 它们 存 取 的 FIB 表 不 一 样 。 
26 (S £ib magic (RTM NEWROUTE, dev-»flags&IFF LOOPBACK ? RTN LOCAL 
223i RIN UNICAST, prefix, ifa-»ifa prefixlen, prim); 
28 
Lo /* Add network specific broadcasts, when it takes a sense */ 
SOF if (ifa->ifa_prefixlen < 31) { 
loopback #0 prefix 是 127， 而 配置 例子 是 192.168.18 
Sa @ £ib_magic(RTM_NEWROUTE, RTN BROADCAST, prefix, 32, prim); 
loopback 接口 的 prefix|~mask 是 255.255.255.127， 而 配置 例子 是 192.168.18.255 
32€ © £ib magic (RTM NEWROUTE, RTN. BROADCAST, prefix|~mask, SEI) 
Sse } 
34. } 
Soy y 
代码 段 3-24 fib add ifaddr 函数 
我 们 已 经 给 出 函数 中 调用 fib magic 的 第 三 个 参数 。 根据 这 些 参数 我 们 看 看 它 的 执行 是 什么 结 
R: 
创建 并 初始 化 一 个 核 内 路 由 命令 消息 , 这 实际 是 和 netlink 消息 的 处 理 过 程 (请 参考 inet_rtm_newaddr 
函数 ) 一 样 ， 但 是 又 不 能 直接 引用 netlink 的 代码 ， 因 为 不 太 好 设置 传 入 的 参数 。 在 处 理 这 些 FIB 引擎 时 ， 
netlink 已 经 被 锁 住 
il, SitéEledke woul ilo wuüexepr (almus Ciel, die Eye UL, clit, alte Cse Jew. Sici@uleie 3m Wirexyelclic 
*ifa) 
2c VT 
E Struct trib rable * tb 
4. Sewn i 
5 struct nlmsghdr nlh; 
6. struct rtmsg rtm; 
d ) req; 
Ge struct kern_rta rta; 
94 
10, memset(&req.rtm, 0, sizeof(req.rtm)); 
EU ect memset (&rta, 0, sizeof(rta)); 
对 于 第 @ 次 进入 ， 才 会 得 到 MAIN 表 ， 其 余 儿 次 都 是 LocAL 表 ， 在 没有 定义 
CONFIG IP MULTIPLE TABLES ne 
ip fib local_table 的 指针 ， 而 不 是 根据 其 函数 名 创建 一 个 新 的 FIB 表 。 对 于 1oopback 接 口 类 地 
址 ， 它 访问 的 都 是 1ocal 表 ， 不 可 能 访问 main 表 
12. if (type == RTN_UNICAST) 
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is}. tb = fib_new_table(RT_TABLE_ MAIN); 
14. else 
115 < tb = fib _new_table(RT_TABLE LOCAL); 
下 面 就 开始 构造 一 个 nim 和 rtm 消息 体 ， 其 实 仅 仅 是 把 它们 传 入 tb_insert 函数 ， 而 非 要 把 他 们 真正 
发 送出 去 
LG req.nlh.nlmsg len = sizeof (req); 
Ly. req.nlh.nlmsg type = cmd; 
T6. req.nlh.nlmsg flags = NLM F REQUEST|NLM F CREATE NLM F APPEND; 
IOR req.nlh.nlmsg_pid = 0; 
20. req.nlh.nlmsg_seq = 0; 
Bil. 
22 req.rtm.rtm dst len = dst len; 
295 rec tenement to me, 
要 记 住 这 种 方式 下 尽管 是 用 户 运 行 ifconfig 命令 产生 了 路 由 ， 但 实际 是 由 内 核 产 生 了 路 由 
24. req.rtm.rtm protocol = RTPROT KERNEL; 
RAQ KIEA 127.0.0.1 192.168.18.2 的 时 候 rtm_scope 的 值 是 HosT， 其 余 都 是 LINK 
Zoe req.rtm.rtm scope = (type != RIN_LOCAL ? RI_SCOPE_LINK : RI_SCOPE_HOST) ; 
267 req.rtm.rtm_type = type; 
Zales 
28. rta.rta_dst = &dst; 
29. rta.rta prefsrc = &ifa-»ifa local; 
这 个 步骤 很 重要 ， 是 后 面 查询 PIB 时 找到 出 接口 的 关键 
30) rta.rta oif = &ifa-»ifa dev-»dev-»ifindex; 
往 系统 配置 地 址 本 质 就 是 往 路 由 系统 增加 一 个 比较 特殊 的 路 由 ， 所 以 cmd 是 NEWROUTE， 而 不 是 
NEWADDR。 
Se if (cmd == RTM NEWROUTE) 
Sc tb-»tb insert(tb, &req.rtm, &rta, &req.nlh, NULL); 
33. else 
34. tb-»tb delete(tb, &req.rtm, &rta, &req.nlh, NULL); 
35. ] 
代码 段 3-25 fib magic 函数 
tb-»tb insert 在 此 指向 了 fn hash insert. 
1 eo ne alin 
Zi. ein Jewel ameisice (Sew ill Vege “elo, GiGiebIGic SE “ie, EON IkSiem ieee, or 
33 struct nlmsghdr *n, struct netlink skb parms *req) 
aw 
> struct fn hash *table = (struct fn hash *) tb-»tb data; 
6 sree ten “Mey SE, YER 
The struct fib_alias *fa, *new_fa; 
Se SiS GONE) Aes EST 
DE Sl er fl Shigeo) ll 
上 面 的 代码 中 rtm dst. len 的 长 度 等 于 32 
HOR Thb A S eee dst len: 
We int type = r->rtm_type; 
ee u8 tos = r->rtm_tos; 
1a u32 key; 
14. yl ee 
1. 
6. xi da 2 32) 
dign return -EINVAL; 
z 的 值 如 下 : XF 192.168.18.1/24, BQ. Q)VGEAXJE 32, 第 @ 次 进入 是 24, H@. © 
进入 是 32 
对 于 127.0.0.1， 第 @) 次 进入 是 32， 而 第 Q) 次 不 会 被 执行 ， 第 @) 次 进入 是 8， 第 四、 回 进 入 
fe 32 
Rere fz = table->fn_zones[z]; 
ROR if (!fz && ! (fz = fn new zone(table, z))) 
220) - return -ENOBUFS; 
217 
22 c key = 0; 
25 Pf (rta-srtacdsto ot 
24. u32 dst; 
25 memcpy (&dst, rta-»rta dst, 4); 
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AG 
2 c 


DIOE 
DIOE 
SOR 
SL c 
32 
Sic 
34. 
E 
S65 


Sc 
38: 
S9 


40. 
41. 


42. 


保证 目的 地 址 ? ? 2 ? ? ， 

if (dst & ~FZ_MASK (fz) ) 

return -EINVAL; 

获取 路 由 表 项 的 键 值 ， 这 是 最 重要 的 一 个 步骤 。 计 算 方 式 就 是 dstgfz?>fz_mask 的 值 。 原 来 
所 谓 键 值 就 是 一 个 地 址 

key = fz_key(dst, fz); 











} 
fi = fib create info(r, rta, n, &err); 


if (fz--fz nent > (fz-»fz divisor««l) && 

fz-»fz divisor < FZ MAX DIVISOR && 

(z==32 || (1««z) > fz->f£z_divisor) ) 

fn rehash zone(fz); 
通过 key 查找 是 否 曾 经 创建 过 fib_info{} 结 构 ， 毕 竞 一 个 唯一 的 路 由 /地 址 只 能 有 一 个 key 
f = fib find node(fz, key); 






























































iz (duy 
如 果 之 前 没有 创建 fib_node{}， 那 么 肯定 就 没有 创建 过 相关 的 fib alias() 
fa = NULL; 
else 
ak. [1 




















如 果 有 fib nodet), JA HAE fib_alias{}4i4, (ARAM Al tos 及 优先 级 都 相同 
的 fib_alias{}， 还 不 一 定 有 。 不 过 在 我 们 目前 的 状况 下 ， 肯 定 能 找到 一 个 。 
fal Mu EStamcdemaluasist- >tnnaliac ECOS er fom oV 
有 3 种 情况 : 
1) 如 果 没 有 没有 找到 tos 及 优先 级 相同 的 fib_alias{}， 那 就 创建 一 个 插入 并 到 fib_nodef{} 的 


Ma 


AY HI 
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2) 如 果 连 与 地 址 相配 的 fib_noqe{1} 都 没有 找到 ， 我 们 就 要 创建 一 个 


if (fa && fa->fa_tos == COS && fa-»fa info-»fib priority == fi->fib_priority) 
{ 

3) 如 果 找 到 £ib aliast). MH 3 元 组 < 地 址 ，tos，Ppziority> 却 和 我 们 的 一 致 ， 那 就 不 要 了 
创建 了 fib alias(), 其 全 连 f1b_ info{} 也 不 要 创建 J 。 


struct beala Ssang; 


















































err = EEXIST} 
if (n->nlmsg_flags & NLM_F_EXCL) 
GOL outs 














if (n->nlmsg_flags & NLM_F_REPLACE) { 

如 果 是 要 代替 这 个 路 由 表 项 ， 就 把 第 31 行 创建 fib_infof} 赋 给 fip_alias{}, 原 来 老 的 删除 掉 
Sevas aig neo “EL Cay 
u8 state; 



































igal_Clie@ys) fa Sie e\_alsqure)s 

fa efa info fi; 

fa->fa_type = type; 
fa->fa_scope = r-»rtm scope; 
state = fa->fa_state; 
fa->fa_state &= ~FA_S_ACCESSED; 
fib_hash_genid++; 


fib release info(fi drop); 
if (state & FA S ACCESSED) 

rt eacbe flush(-l); 
return 0; 


} 





/* Error if we find a perfect match which 
* uses the same scope, type, and nexthop 
aguas gsm ome 





S 
fa orig = fa; 
fa = list_entry(fa->fa_list.prev, struct fib alias, fa list); 
list for each entry continue(fa, &f-»fn alias, fa list) { 
s (a ues l= wes) 
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79). break; 
39. Wie (Ee 3umEQ-curade ON Ys dE3L— 36309) joel ue 3L S7) 
80 . break; 
S if (fa->fa type == type && 
92 . fa-»fa scope == r-»rtm scope && 
Bi fa-»fa info == fi) 
84. goto out; 
SIE } 
86. if (!(n->nlmsg_flags & NLM_F_APPEND) ) 
BUE eel. e del oes 
SITE 
89. 
90. err = -ENOBUFS; 
创建 fib alias()ZiTJ 

91. new fa = kmem cache alloc(fn alias kmem, SLAB KERNEL); 
VA. 
93. new_f = NULL; 
Qa, alse (Use) 
9. 4 

创建 £ib nodet)ZifJ 
96. new f = kmem cache alloc(fn hash kmem, SLAB KERNEL); 
9 s 
929.5 INIT HLIST NODE(&new f-»fn hash); 
29. INIT LIST HEAD(&new f-»fn alias); 

把 键 值 赋 给 这 个 fib node() 
OO new_f->fn key = key; 
LOLS f = new_f; 
1102 « } 
103. 
104. new_fa->fa_info = fi; 
TOSA new_fa->fa_tos = tos; 
LOGE new_fa->fa_type = type; 
LOT A new_fa->fa_scope = r-»rtm scope; 
108. new_fa->fa_state = 0; 
TOS 
KLO- i 
itt aL c * Insert new entry to the list. 
1.152 - rA 
Lis. 
dabat if (new f) 
WES- om (fz, new f); 
LSS list_add_tail (&new_fa->fa_list, 
dT (fa 7T &fa-sora list 2 &Ff-»fn-a1145)); 
i. fib hash genid--*; 
Li). 
120) . if (new_f) 
02 ee taz-otz nent +: 
d 2:5 rt cache tlush(-l) 
123 
124. rtmsg fib(RTM NEWROUTE, key, new fa, z, tb-»tb id, n, req); 
125. return 0; 
126. 
WATS out_free_new_fa: 
128. kmem_cache_free(fn_alias_kmem, new_fa); 
129). out: 
1S0 fib_release_info (fi); 
dL SYL c return err; 
1927 « } 





代码 段 3-26 fn hash insert 函数 
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o 里面 的 成 员 基 本 上 都 能 根据 掩 码 的 








m 





当 对 应 掩 码 长 度 的 zone 没有 被 创建 时 ， 就 应 该 创 妈 
长 度 z 来 确定 。 




















i, egens) Struet nazonce. 

2 fn new zone(struct fn hash *table, int z) 
SK eal 

4 augu 3bg 
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D struct fn zone *fz = kzalloc(sizeof (struct fn zone), GFP KERNEL); 
对 于 目前 的 情况 ，z 要 么 是 32， 要 么 是 24， 所 以 £z divisor 是 16 
6. wie ‘(ayy 4 
Thi irama o divrsoc = 160r 
BE else { 
om 72S 15 
LO. 
Atal facorz hashmasgk = (faz-sfz diviser = b 
根据 第 6 47, fz hash 数组 有 16 个 单元 
2 "a Sv hash = £2 hash allocifz-^fs divisor); 
13). 
14. memset(fz-»fz hash, 0, fz-5fz divisor * sizeof (struct hlist head *)); 
152 fz-5fz order = 2; 
要 注意 这 个 制造 mask 的 函数 把 扼 码 转 成 主机 字 节 序 
es fz->fz_mask = inet_make_mask(z)j; 
Ld 
找到 第 一 个 非 空 的 zone， 该 zone 的 掩 码 比 
1$. wor (L241 SF die) u32 inet make mask(int logmask) 
1.9. if (table->fn_zones[i]) 
s break; if (logmask) 
WR 工大 于 32， 说 明 当 前 zone 具有 当前 return htonl(-((1««(32-logmask))-1)); 
RIEP SE return 0; 





gil. sg (GESSE) ^ 
这 里 有 3 种 可 能 : 

1) 当前 zone 就 是 FIB 系统 里 第 一 个 成 员 ， 因 为 遍历 了 整个 zone， 发 现 都 是 空 的 (z 是 0) 

2) 当前 zone Ifi EE PA BET] zone 的 掩 码 都 要 长 ， 因 为 i 从 z 十 1 开始 。 

3) 当前 zone 就 是 32 位 掩 码 长 度 ， 根 本 不 需要 遍历 fn_zones[] J. 







































































22 fz->fz_next = table->fn_zone_list; 
fn zone list 指针 一 定 要 指 问 最 长 掩 码 的 zone 
vie table-»fn zone list = fz; 
zu. ) else ( 
把 此 zone 插入 到 最 精确 zone 和 次 精确 zone 之 间 
2 fz->fz_next = table->fn_zones[i]->fz_next; 
267 table->fn_zones[i]->fz_next = fz; 
BI } 
终于 把 创建 的 zone 的 指针 赋 给 了 数组 
ZION tablen a Fin Movers [v4 Ez, 
ge fib hash genid--*; 
SOF 
Sa return fz; 
S2 





代码 段 3-27 fn new zone 函数 














按 上 节 说 的 FIB 库 分 层 结构 ， 创 建 了 zone 就 应 该 创建 ffb_nodef{} 了 ， 可 是 没有 ， 它 先 创建 了 


fib_info{}， 先 硬 着 头皮 往 下 看 吧 。 


M 





T 



































































































































i Serut Ends) abe) C^ 
2 fubEcrediuesSemtolconstasisiuci wise; Wie, Structikernirta xS 
3 COmsic fere. milnscincke “mila, S) 
ae ET 
5 Ine Enr; 
6 Slab Eo sog) “ses ENU; 
7] Seis Ee nla C" GO 
如 果 是 配置 支持 路 由 策略 ， 那 么 nhns 《下 一 跳 接 口 的 个 数 ) 有 可 能 大 于 1， 但 是 这 种 情况 我 们 不 考虑 。 
on #ifdef CONFIG_IP_ROUTE_MULTIPATH 
9) « slice ining; Ex dip 
TO #else 
缺 省 情况 下 ，nhs 只 能 等 于 1， 所 有 用 cost AK 
TIS const int nhs = 1; 
125 #endif 
3. 
14. /= pase Cacek ro Caten whe most veire Cages 4 
下 面 这 种 情况 出 现 的 可 能 性 非常 小 , 249 127.0.0.1 RAME 192.168.1.1} r>rtm_type #2, 
i] r>xrtm_scope 是 254 
157 if (fib_props[r->rtm_type].scope > r-»rtm scope) 
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LG. 
17 s 
SE 
19. 
20. 
Ze 
225 
23. 
24. 
25. 
DIE 
2 « 
2 c 


Z9. 
30. 


Sly 
Sis 
EC 
34. 


EE 
EIE 


ST s 
Scr 
BY) 
40. 
41. 
42. 
43. 


44. 
45. 


46. 
47. 
48. 


49. 
SUR 
Sl c 


2 
S3 
54. 
Soc 
96. 
S1 c 
E 
Ye 
60. 
Gal c 
62. 
63. 
64. 
65. 
66. 
ON 
68. 
69 . 


goto err_inval; 


#ifdef CONFIG IP ROUTE MULTIPATH CACHED 
aig (awe Su ceo «dep d 
mp alg = *rta-»rta mp alg; 


if (mp alg « IP MP ALG NONE || 
mp alg » IP MP ALG MAX) 
goto err inval; 
} 
#endif 





err = -ENOBUFS; 
下 面 这 2 个 全 局 变量 在 初始 化 的 时 候 都 等 于 0， 所 以 肯定 能 在 配置 第 一 个 地 址 的 时 候 进 入 这 个 判断 
Lf (fib info cnt 5-2 fib hash size) 


{ 
















































































fib_hash_size 的 值 每 次 都 增 大 1 倍 , Hl 1>294989...... ， 但 是 它 是 如 何 从 0 变 成 1 呢 ? 
unsigned int new size = fib_hash_size << 1; 
struct hlist_head *new_info_hash; 
struct hlist head *new laddrhash; 
unsigned int bytes; 















































就 在 这 里 ， 由 于 new size 变 成 1， 并 在 fib hash move 函数 中 赋 给 了 fib hash size. fi 5 
成 021 的 变化 
if (!new_size) 
new_size = 1; 








根据 new_size 重新 创建 2 个 hash 表 数组 ,这 2 个 hasn 表 就 是 全 局 的 nash 表 ,会 在 fib_hash_move 
函数 中 分 别 赋 给 fib info hash 和 fib_info_laddrhash。 

bytes = new_size * sizeof(struct hlist_head *); 

new info hash = fib hash alloc (bytes); 

new laddrhash = fib hash alloc (bytes); 








memset (new info hash, 0, bytes); 

memset (new laddrhash, 0, bytes); 
不 要 被 它 的 名 字 迷 惑 了 , 它 内 部 确实 是 一 个 一 个 地 清除 了 fib info hashflfib info laddrhash 
里 的 节点 ， 并 释放 了 这 2 个 表 数 组 ， 但 是 ， 它 又 将 原来 的 节点 都 保存 到 new info hash 和 
new laddrhash 中 了 【实际 就 是 那 2 个 全 局 表 ) 

fib hash, move (new info hash, new laddrhash, new size); 





















































} 
下 面 这 种 情况 几乎 不 会 发 生 ， 除 非 fib_hash_alloc 失败 ， 所 以 请 无 视 之 
if (!fib_hash_size) 

goto failure; 

















} 
在 没有 配置 成 多 路 径 的 情况 下 ，nhs 是 1， 那 么 fib_info 中 的 fib_nh 数组 就 具有 一 个 音 
fi = kzalloc(sizeof (*fi)+nhs*sizeof (struct fib nh), GFP KERNEL); 


j 








[und 
al 























fib info- cnt ++? 
在 这 里 是 RTPROT_KERNEL, 不 是 我 们 常 说 的 TCP 或 UDP， 如 果 是 某 个 路 由 协议 比如 osPF， 则 是 那个 
“协议 ”自己 指定 的 值 ， 比 如 RTPROT_ZEBRA (zebra 是 一 个 比较 大 的 路 由 软件 开发 公司 ) 










































































a = Silo oo SS Ere EMEP EOE OCON 
nn = nhs; 
change_nexthops(fi) { 

nh->nh_parent = fi; 


} endfor_nexthops (fi) 


fi->fib_flags = r->rtm_flags; 

IE (eere Tou LO wey) 
SSS ol De Se Too 

if (rta-»rta mx) { 
int attrlen = RTA PAYLOAD(rta-»rta mx); 
Serpe IEEE "EWEgde = IRMA DATA (aciei sede Ub) P 


while (RTA OK(attr, attrlen)) { 
unsigned flavor = attr-»rta type; 
ick ElIGvVor) 4 
if (flavor > RTAX_MAX) 
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70. 
Ws 
p 
T Sic 
74. 
WS). 
TG. 
Vike 
fO 
IO 


80. 
81. 
82. 
83. 
84. 
85. 
86. 
91 c 
88. 
89. 
90. 
OL c 
o c 
93 c 
94. 
99 


Sie 
Oe 


HS} « 
99). 


TOO 
1.91. 
1025 
WOS 
104. 
LOS. 
106. 
LOW. 
LOS 
LOS 
LAL). 
JL ibi o 
Ze 
LAS. 
114. 
ILLS) - 
S, 
LET 


es 


Ll Oe? 
B20 
WAAL. 
12721 
123. 
124. 


LAS « 
126. 
1259 « 


1268. 


goto err inval; 
fi->fib_metrics[flavor-1] = *(unsigned*)RTA DATA(attr); 
} 
attei = RTARNEXN( ater ateren); 
} 
} 
if (rta->rta_prefsrc) 
memcpy (&fi->fib_prefsrc, rta-»rta prefsrc, 4); 


if (rta-»rta mp) { 
如 果 是 文 持 策略 路 由 的 话 就 进入 下 面 的 分 文 
#ifdef CONFIG_IP_ROUTE_MULTIPATH 


























wie ((Gise e wallow Meo MMe (itil, ae oe s)))) = 0) 
goto failure; 
Ti (lel Orr. GS fie ri RS SA OI ie trta-»rteacort) 


goto err inval; 
if (rta-»rta gw && memcmp(&fi-»fib nh-»nh gw, rta-»rta gw, 4)) 
goto err inval; 

#ifdef CONFIG NET CLS ROUTE 
if (rta-»rta flow && memcmp(&fi-»fib nh-»nh tclassid, rta-»rta flow, 4)) 
goto err inval; 














#endif 
#else 
goto err_inval; 
#endif 
} else { 
styuct fib nn nko S fier ranks: 
我 们 曾经 指定 了 rta oif 
E(t OaE) 
hi Son ott = ri s-Sr ta ore: 
我 们 目前 没有 设置 网 关 ， 所 以 rta gw 是 NULL 
ast (rea CE gW) 
memcpy (&nh->nh_gw, rta->rta_gw, 4); 
#ifdef CONFIG_NET_CLS_ROUTE 
if (rta-»rta flow) 
memcpy(&nh-»nh tclassid, rta-»rta flow, 4); 


























#endif 
nh-»nh flags = r-»rtm flags; 
#ifdef CONFIG IP ROUTE MULTIPATH 
nh-»nh weight - 1; 
#endif 
} 


aie (rao Ieee > ovo || exse») 1 
if (rta->rta_gw || rta-»rta oif || rta-»rta mp) 
goto err inval; 
Gjouo Langue ane § 
) 


if (r-»rtm scope > RT SCOPE HOST) 
goto err inval; 
我 们 配置 主机 地 址 时 ，scope 是 HOST, 
if (r->rtm_scope == RT_SCOPE_HOST) { 
下 面 指定 下 一 跳 设 备 就 是 该 地 址 的 owner (设备 接口 ), NET 3308 127.0.0.1 192.168.18.2, 
则 是 进入 此 分 文 
Struct. frxbinH i = Me ee oni 




































































/* Local address is added. */ 
if (nhs != 1 || nh->nh_gw) 

goto err inval; 
nh-»nh scope - RT SCOPE NOWHERE; 


根据 上 面 分 配 的 接口 索引 找到 对 应 net. devicet) 
nh-»nh dev = dev_get_by_index(fi->fib_nh->nh_oif); 


























} else { 
如 果 是 远 端 主机 或 者 某 局 域 网 地 址 ， 就 要 遍历 fi 的 所 有 下 一 跳 ， 但 对 于 缺 省 情况 ， 只 循环 一 次 。 
fib check nh 完成 比较 复杂 的 事情 ， 见 下 面 的 函数 
change nexthops(fi) { 
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在 这 里 bh 是 fi->fib_nh 成 员 














































































































12 9). abis (C (Giese = sesiloy Clovexeli< saa (ie, seal, ‘iala\)))) es (9) 
HESS goto failure; 
LSI c ) endfor nexthops(fi) 
1,32 - } 
133 
134. sig (iraya jone@irsee)) X 
135. if (r-»rtm type != RTN LOCAL || rta->rta_dst == NULL | | 
1367 memcmp (&fi->fib_prefsrc, rta-»rta dst, 4)) 
LS if (inet_addr_type(fi->fib_prefsrc) != RTN_LOCAL) 
138. goto err_inval; 
139. } 
140. 
141. isin ae 
查找 和 刚才 创建 的 fib_info 信息 相同 的 节点 ， 如 果 在 hash 表 中 找到 了 ， 那 么 就 释放 该 fi， 并 把 
fib treeref 自 增 ， 表 示 该 节点 的 又 被 引用 了 一 次 
142 . ag CONE emo (G3) )) Je Qon) Wi 
143. fi-»fib dead = 1; 
144. free fib info(fi); 
qup ofi-»fib treeref-t*; 
146. return ofi; 
TAF., } 
148. 
149. fi-»fib treeref-t-*; 
T50 
把 62 行 创建 的 fib_info WA fib info hash KF, WE key 冲突 就 挂 到 hasnh 链 前 面 
JUL e hlist. add head(&fi-»fib hash, 
IZ, - &fib info hash[fib info hashfn(fi)]); 
11555 tar. (reer et 
ae struct hlist_head *head; 
5S) 
T5 head = &fib info laddrhash[fib laddr hashfn(fi-»fib prefsrc)]; 
15 7 hlist_add_head(&fi->fib_lhash, head); 
WSE } 
iy). change nexthops(fi) { 
160. struct hlist head *head; 
ILL c unsigned int hash; 
162 
TES if (!nh->nh_dev) 
164. continue; 
165. hash = fib devindex hashfn(nh-»nh dev-»ifindex); 
Eales head = &fib info devhash[hash]; 
把 fib_nh 放 入 fib info devhash 表 中 ， 如 果 key 冲突 就 挂 到 前 面 
WETS hlist_add_head(&nh->nh_hash, head); 
Less } endfor_nexthops (fi) 
169 
LVO; return fi; 
yal 
72 err_inval: 
JE) 6 err = -EINVAL; 
174 
IS. failure: 
Une. *errp = err; 
TS air (a) di 
JUL fi-»fib dead = 1; 
HERO free fib info(fi); 
180. ) 
iL dL c return NULL; 
1192) - } 





代码 段 3-28 fib create info 函数 














从 这 份 代 码 可 以 推断 出 fib info fH fib nh 的 关系 ,要 注意 的 是 fib nh 里 的 nh_dev 是 根据 自身 
的 nh oif 查找 到 的 ,这 是 fib magic 函数 里 把 ifa->ifa_dev->dev->ifindex 赋 给 rta.rta_oif, 然后 传 到 
这 里 来 的 。 
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Semantics of nexthop is very messy by historical reasons. 

We have to take into account, that: 

a) gateway can be actually local interface address, 
so that gatewayed route is direct. 

b) gateway must be on-link address, possibly 
described not by an ifaddr, but also by a direct route. 

c) If both gateway and interface are specified, they should not 
contradict. 

d) If we use tunnel routes, gateway could be not on-link. 





Attempt to reconcile all of these (alas, self-contradictory) conditions 
results in pretty ugly and hairy code with obscure logic. 


I chose to generalized it instead, so that the size 
of code does not increase practically, but it becomes 
much more general. 


Every prefix is assigned a "scope" value: "host" is local address, 
"link" is direct route, 
lw Mi ek ce ccu cacy of ee ot ca lc] 


and "universe" is true gateway route with global meaning. 





Every prefix refers to a set of "nexthop"s (gw, oif), 

where gw must have narrower scope. This recursion stops 
when gw has LOCAL scope or if "nexthop" is declared ONLINK, 
which means that gw is forced to be on link. 


Code is still hairy, but now it is apparently logically 
consistent and very flexible. F.e. as by-product it allows 
to co-exists in peace independent exterior and interior 
routing processes. 


Normally it looks as following. 





{universe prefix} > (gw, oif) [scope link] 


|-» {link prefix} -» (gw, oif) [scope local] 


|-> {local prefix} (terminal node) 


fede 


Stat me ats. Clousel< ine (COMBE tens Hie, Biewibiele Trade. Se el 
*nh) 
{ 
shige Gwe p 
. if (nh->nh_gw) { 
如 果 指 定 了 网 关 地 址 ， 就 要 








#endif 


struct fib_result res; 


#ifdef CONFIG_IP_ROUTE_PERVASIVE 


if (nh->nh_flags&RTNH_F_PERVASIVE) 
SE ici O3 


if (nh-»nh flags&RTNH F ONLINK) { 
struct net device *dev; 





if (r-»rtm scope >= RT SCOPE LINK) 








return -EINVAL; 

if (inet addr type(nh-»nh gw) != RTN_UNICAST) 
return -EINVAL; 

if ((dev = dev get by index(nh-»nh oif)) -- NULL) 
return -ENODEV; 

if (!(dev-»flags&IFF UP)) 


return -ENETDOWN; 
nh-»nh dev = dev; 
nh-»nh scope = RT SCOPE LINK; 
return 0; 





xi 
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69. 
70. 
WAL 
VA. 
Uc 
74. 
US: 
VE. 
T c 
mos 
TD 
80. 
ONES 
82. 
83. 
84. 
85. 
86. 
SENS 
88. 
Spr 
90. 


Gils Cybties 


QA e 
93 c 


Su tefl ow — { «ml pA jg = 
{ .daddr = nh-»nh gw, 
SCOPE- = Sicicin_ o a i fF }, 
OnE - Hlp-»nhsolt s? 


fe We LS Moe Macey, en 
if (fl.fl4 scope < RT SCOPE LINK) 

fl.fl4 scope = RT SCOPE LINK; 
if ((err = fib lookup(&fl, &res)) != 0) 

return err; 





j 
































err = -EINVAL; 

if (res.type !- RTN UNICAST && res.type !- RTN LOCAL) 
goto Our 

nh-»nh scope = res.scope; 

nh-»nh oif = FIB RES OIF (res); 

if ((nh-»nh dev = FIB RES DEV(res)) == NULL) 
goto out; 

err = -ENETDOWN; 

if (!(nh-»nh dev-»flags & IFF UP)) 
goto out; 





err = 0; 


fib_res_put (&res) ; 
return err; 


94. } else { 














g5% struct in_device *in_dev; 
9S - 
Sq a LE (nh-»nh. flags& (RTNH. F PERVASIVE|RTNH F ONLINK)) 
s return -EINVAL; 
JOR 
LOO in dev = inetdev by index(nh-»nh oif); 
JLOHL if (in dev == NULL) 
LOZ « return -ENODEV; 
LOS: if (!(in_dev->dev->flags&IFF_UP)) { 
104. in_dev_put (in_dev) ; 
10S - return -ENETDOWN; 
106. } 
A nh->nh_dev = in_dev->dev; 
OSes dev_hold(nh->nh_dev) ; 
LOS nh->nh_scope = RT_SCOPE_HOST; 
ESAE in dev put (in dev); 
PPS } 
LAs return 0; 
113. ) 
代码 段 3-29 fib check nh 函数 
ip fib local table fn zone 3 fn zone 1 
fib table r—— | fn zone *fz next |————9| fn zone *fz next H 
hlist_head *fz_hash hlist_head *fz_hash 











unsigned char tb_id 























int (*tb lookup)(...) 




















int (*tb insert)(...) >| fn zone *fz next 



































S LUE du hlist head *fz hash 
fn zone *fn zones[1] —». hlist node *first a 
EE hlist node *first 

















fib node 





fn zone *fn, zones[32] 











fn zone *fn zone list 








fib node fib node fib node 


图 表 3-25 fn hash insert 之 后 fib_ table 和 fn zone & fib node 之 间 的 关系 
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让 我 们 放大 fib node 的 结构 ， 并 将 其 与 fib zone 联系 起 来 ， 于 是 得 到 下 面 这 张 图 : 



















































































































































































fib_alias fib alias 
m> list head fa list |———3 list head fa list ———» 
fib info *fa info fib info *fa info ibi 
fn zone ! U8 fa scope U8 fa scope 
的 hash 表 
hlist_node *first fib_node fib info 
hlist_node *first |————|_hlist_node fn hash >| hlist nodefib hash < 
list head fn alias hlist node fib Ihash 
Int fib protocol fib nh 
Int fib nhs m> net device *nh dev 
fib node fib nh fib nho] — | hlist node nh hash 
—» hlist nodefn hash ,———  . | .. fib info *nh parent 
list head fn alias | | fib nh fib nh[fib nhs-1] uchar nh. scope 
Int nh oif 
u32 nh gw 











图 表 3-26 fib node 5 fib alias. fib info. fib nh 结构 的 关系 





























通过 这 么 一 段 时 间 的 研究 ， 可 以 这 样 理解 这 些 结构 之 间 的 关系 : 
1,fib_table 中 包含 fn_hash 结构 指针 
2,fn_hash 中 包含 fn zone 的 数组 ， 按 照 目的 地 址 长 度 进行 分 类 ,相同 长 度 的 地 址 共用 一 个 









































fz_zone 
3, fn key 相同 的 两 条 路 由 《同一 子 网 )， 共 享 一 个 路 由 节点 Cfn node) 

4, 根 据 具 体 子 网 内 地 址 的 不 同 ， 使 用 不 同 的 fib_alias 4l fib info 

5, 目 的 地 址 相同 的 情况 下 ， 也 可 以 使 用 多 条 路 由 ， 不 同 的 路 由 存放 在 不 同 的 fib_nh 里 面 


fib create info 函数 中 牵涉 到 3 个 hash X: fib_info_hash fib_info_laddrhash, fib_info_devhash, 
为 了 简化 讨论 ， 我 们 不 考虑 第 二 个 表 ， 那 么 第 二 个 和 第 三 个 表 的 关系 如 下 : 











































































































fib_info_hash fib_info_devhash 


firt “上 一 一 fib infol 一 一 一 一 一 一 _ aa“ a first 
< : 
ge s first 

















first 























图 表 3-27 fib info hash #0 fib info devhash 的 关系 








可 以 看 出 ，fib_info 是 指向 fib nh 的 ， 而 它们 分 别 被 放 到 2 个 hash 表 中 。 
& DiXfib magic5é XT] £i A: 





NT 
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ip_fib_local_table 


PN 
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fib_table 
tb_id 
fib_alias 
*fn_zones[0] Key=0x1 00007f fa list 
*fn zones[1] Dst-0x100007f fib_node *fa_info 
"n fn hash fa_type 
fn_hash *fn_zones[24] | fa_scope 
共 33 项 = fn alias -scope |RT SCOPE HOST 
—— fn key | 0x100007f 
*fn_zones[32] hlist_head fib_info 
*fn_zone_list mee fn_zone hlist_head 
*fz_next 1644 | eee 
*fz hash hlist head 
fz_nent=1 hlist_head 
图 表 3-28 第 一 次 完成 FIB 表 插 入 
第 @ 次 fib_magic 完 成 的 结果 : 
ip_fib_local_table fib_alias 
ee Key=0x7f fa_list 
ib_table Dst=0x7f MES 
fib. node fa_info 
tb_id 
= fn_hash fa type |RTN| LOCAL 
fn zone fa scope RT| COPE_HOST 
— fn alias — 
*fz next hlist head m 
*. n. ey 
fn. zones[0] *fz hash | i" me fib info 
x E 
"fn. zones[1] fz nentz1 hlist head er 
fib_alias 
*fn zones[8] fa list 
T fib node *fa info 
*fn zones[32] fn hash fa type |RTN LOCAL 
*fn zone list | Sarees fn alias fa scope RT. SCOPE HOST 
= hlist_head 
*fz next EJ fn key 
fz hash hlist head 0x100007f 
fz_nent=1 
图 表 3-29 第 二 次 完成 FIB 表 插 入 


AAA 
LH, 
PE] 
























































@ 次 fib_magic 完 成 的 结果 : 
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ip_fib_local_table fib_alias 
J Key=0x7f fa_list 
fib_table < Dst=0x7f Gant 
fib_node sect 
tb_id EE 
, > fn hash 
"T ( — izoe „~> hlist head [n alias | | J fib_info 
“fz next — «— 
doa LI fn ke Ox7f , y 
*fn_zones[0] *fz_hash | J hlist -head | key | fib_alias 
*fn zones[1] fz_nent=1 —»| fa list 
uu Bp tans "fa info 
*fn zones[8] |— Ninus d fa type 
fn hash 
ee y» m-nas fa scope 
*fn zones[32] fn alias "s p 
*fn_zone_list mM d ons hlist head fn key | 0x100007f EI 
*fz next 7 | LL l fib_alias 
hlist_head }— fib_node 
*fz hash fa list 
fz nent-2 fn hash «— | *fa info | 
fn alias Pl. — 
fa type |RTN BROADCAST 
fn key | Ox7f 
fa scope |RT |SCOPE LINK 
图 表 3-30 第 三 次 完成 FIB 表 插 入 
第 加 次 fib_magic 完 成 的 结果 : 
fib_alias 
ip_fib_local_table 
Key=Oxffffff7f fa_list 
fib_table Dst=Oxffffff7f z 
; *fa_info 
fib_node E See 
tb_id —— 
> fn hash 
> fn zone 一 一 一 一 一 
sies fn alias fib info 
“fz nex € (^ ids Ox7f 一 
*fn_zones[0] *fzhash | |) | ...... 
*fn_zones[1] fznent-1 | | |... SNP 
fib alias 
—— fib node i 
*fn_zones[8] — E » | falist | | 
fn_hash *fa_info 
ds nr mam 一 一 一 一 fib_info 
*fn_zones[32] = : ,—» fib alias 
- cera o em inert | Ox100007f fib_node 
fn zone list fn zone || |... EUN fa list 
| ane T=] | Sees fn alias “fa_info |] D 
*fz hash fib node pum i 
fz nent-3 ~> fn hash Je— e fib alias 
fn alias fa list 
Oxfffftf7f *fa info pe A 
图 表 3-31 第 四 次 完成 FIB 表 插 入 
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当 配 置 例子 中 的 接口 P 地 址 时 ， 会 产生 如 下 的 结果 : 

















ip_fib_local_table 


fib_table x!) d. 23 fib alias 
fib node 


tb id —— —» fn zone 


a *fz nex — «— ie 
*fz_hash 


*fn_zones[0] Beneath u^ «iow 2-5 NN fib alias 
*fn zones[1] 


"m | > fib_node "y 
*fn_zones[8] — 0x100007f Ox7f 






































Ox7f 













































































fib_alias 

















fib_alias 





















































eee uiris 
*fn zones32]— p |. | | || |... 
-zones[32] SF ozone | > Oxffffff7f 



























































ae net [| Lo "fib node .— 站 fb alias 
e hasn i ka a8c0 
fz_nent=6 fib node ;__-_»  fib_alias 
Oxff01a8cO0 
fib node | —— — — — ——» fib. alias 
0x1a8c0 


bbbbbobt 


图 表 3-32 完成 FIB 表 插 入 














在 上 图 发 现 什 么 问题 没有 ? 前 文 说 过 , loopback 接 口 的 IP 地 址 设置 有 4 次 fib_magic， 普 通 设备 
的 IP 地 址 设置 有 5 次 ， 不 过 最 后 一 次 不 会 再 创建 node 了 。 所 以 在 上 图 中 应 该 会 发 现 有 8 个 node， 
但 是 只 有 7 个 。 为 什么 会 这 样 ? 这 是 因为 普通 设备 的 流程 和 loopback 接 口 不 同 的 是 在 第 @ 次 
fib_magic 里 面 访问 的 是 main 表 而 不 是 local 表 ， 所 以 这 个 node 放 到 了 main 表 : 




















































































































ip_fib_main_table 
fib_table 


tb_id Key=0x1a8c0 
— fn zone Dst-0x1a8c0 : 
fib alias 
*fz next ( 
fa type IRTN_UNICAST 















































*fn zones[0] *fz hash fib node 
fa scope RT SCOPE HOST 














*fn zones[1] fz nent=1 | = ..... 0x1a8c0 


























*fÉn zones24] — | | | |... 











*fn zones[32] 














*fn zone list 





图 表 3-33 对 main FIB 表 插 入 


3.5 ”直接 访问 路 由 表 
前 两 节 我 们 已 经 通过 配置 设备 接口 的 IP 地 址 间接 的 改写 了 路 由 数据 库 中 的 内 容 ， 那么 还 有 划 
他 方式 访问 路 由 数据 库 吗 ? 答案 是 肯定 的 , 目前 所 有 基于 Linux 的 路 由 系统 基本 属于 下 面 的 架构 : 
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图 表 3-34 常见 路 由 软件 架构 














路 由 协议 采用 的 netlink 接口 来 更 新 FIB K, 在 本 书 中 不 可 能 再 用 一 种 路 由 协议 去 示例 访问 路 
由 表 的 方式 ， 我 们 可 以 采用 类 似 的 方式 ， 比 如 静态 配置 路 由 表 的 方式 来 介绍 netlink 内 部 的 实现 。 
在 Linux 上 有 两 种 访问 路 由 表 系 统 的 命令 
一 种 : ”使 用 route 命令 配置 路 由 表 
示例 1: 添 加 到 主机 路 由 
# route add -host 192.168.18.2 dev ethO 
# route add -host 192.168.183 gw 192.168.18.1 
示例 2: 添 加 到 网 络 的 路 由 
# route add -net 10.10.10.10 netmask 255.255..0.0 eth0 
# route add -net 20.20.20.20 netmask 255.255..0.0gw 192.168.18.1 
# route add -net 30.30.30.30/24 ethl 
示例 3: 添 加 默认 网 关 
# route add default gw 192.168.18.1 
示例 4: 删 除 路 由 
# route del -host 192.168.18.1 dev eth0 
第 二 种 : ”使 用 ip route 命令 
示例 1: 设置 到 网 络 10.0.0/24 的 路 由 经 过 网 关 192.168.18.1 
# ip route add 10.10.10.0/24 via 192.168.18.1 
示例 2: 修改 到 网 络 10.10.10.0/24 的 直接 路 由 ， 使 其 经 过 设备 eth0 
# ip route chg 10.10.10.0/24 dev eth0 




































































使 用 route 命令 则 会 调用 ioct， 内 核 中 会 进入 到 ip_rt_ioctl 函数 。 























int ip_rt_ioctl(unsigned int cmd, void __user *arg) 
{ 
aime, Gueies 
struct kern_rta rta; 
Seiko eieeiaew\y EEG, 
struct { 
struct nlmsghdr nlh; 
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8. struct rtmsg rtm; 

om } req; 

iL) - 

11. switch (cmd) 

12. case SIOCADDRT: /* Add a route */ 

13. case SIOCDELRT: /* Delete a route */ 

TA, 

sit copy from user(&r, arg, sizeof(struct rtentry)); 

lEs 

qu err = fib convert rtentry(cmd, &req.nlh, &req.rtm, &rta, &r); 
algeri ioe (eme = O y 

19. if (cmd == SIOCDELRT) { 

2s struct fib table *tb - fib get table(req.rtm.rtm table); 
2 cr tb->tb_delete(tb, &req.rtm, &rta, &req.nlh, NULL); 
DN ) else { 

23% struct fib table *tb = fib_new_table(req.rtm.rtm_table); 
24. err = tb-»tb insert(tb, &req.rtm, &rta, &req.nlh, NULL); 
257 } 

zd. kfree(rta.rta mx); 

ITP } 

DIOE return err; 

Ze). }} 

30. return -EINVAL; 

Sgen 





代码 段 3-30 ip rt ioctl 函数 


这 上段 代码 和 fib magic 函数 很 。 

除了 给 接口 分 配 IP 地 址 会 造成 FIB 表 数 据 变化 之 外 ， 还 有 另外 一 种 方式 ， 就 是 通过 rtnetlink 
方式 给 内 核 增 加 路 由 。 谁 在 使 用 这 个 接口 ? 在 一 台 路 由 器 上 任何 路 由 协议 都 可 以 使 用 , 比如 OSPF, 
RIP 等 , 当 它 们 完成 一 条 路 由 的 计算 之 后 , 就 会 把 这 条 路 由 加 入 到 内 核 中 , 我 们 前 面 曾 介绍 过 rtmsg 
的 内 容 ， 而 rtnetlink 方式 也 是 借助 这 种 数据 结构 给 内 核 下 达 增 删 路 由 的 命令 。 不 过 不 是 通过 
fib magic, 而 是 转 到 inet_rtm_newroute 函数 ,其 中 再 调用 tb->tb_insert( ) 来 完成 , 其 方式 与 fib_magic 
类 似 。 只 不 过 我 们 可 以 随意 指定 fib info 的 部 分 字段 了 ， 比 如 fib info fib_protocol=rtmmsg> 
protocol， 可 以 是 列表 中 的 值 。 





















































































































































































































































1. int inet rtm newroute(struct sk buff *skb, struct nlmsghdr* nlh, void *arg) 
2 { 

3 Struct fib table. * L5; 

4 Seue tr ol "sae BL c (Xe 

5 struct rtmsg *r = NLMSG DATA (nlh); 

6. 

7 inet check attr(r, rta); 

OP 

9). tb = fib new table (r-»rtm table); 

DO return tb-»tb insert(tb, r, (struct kern rta*)rta, nlh, &NETLINK CB(skb)); 
TIS} 





代码 段 3-31 inet rtm newroute 








这 段 代码 是 不 是 也 和 fib. magic PK ALARM? 所 以 , 对 于 路 由 协议 如 何 更 新 FIB 表 的 介绍 就 到 
这 里 ， 读 者 可 以 自行 琢磨 。 
3.6 ”接口 状态 变化 的 处 理 过 程 
上 一 节 介 绍 了 配置 系统 的 工作 流程 ， 给 系统 分 配 一 个 IP: 192.168.1.1， 协 议 栈 做 了 什么 ? 首 
先 它 调用 ip. route connect >ip_route_output_key> ip_route_output_slow， 然 后 创建 一 个 邻居 表 项 。 
(用 ifconfig eth0 del 192.168.1.1 0 删除 这 个 网 卡 的 IP 地 址 ) 
E 情 到 这 里 好 像 都 完美 无 缺 , 然后 我 们 可 以 ping 外 部 主机 了 。 等 等 , 好像 有 些 东 西 没 有 提 及 。 
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因为 在 大 多 数 情 况 ， 我 们 主机 的 以 太 网 口 都 插 上 了 网 线 ， 也 就 是 说 ， 如 果 按 照 上 面 的 分 析 ， 似 乎 
协议 栈 已 经 准备 好 了 , 但 我 们 到 现在 还 没有 提 到 neighbour 系统 的 设置 ,难道 不 需要 这 个 子 系 统 的 
协助 吗 ? 下 面 我 们 就 来 一 步 一 步 研 究 这 个 问题 的 答案 。 

我 们 已 经 知道 在 Linux2.6 下 每 个 网 络 设备 驱动 程序 的 设备 实体 (net_device) 都 有 一 个 priv 
指针 ， 指 向 了 设备 独 有 的 数据 块 。 虽 然 每 种 设备 独 有 的 数据 结构 有 点 区 别 ， 但 是 绝 大 多 数 都 有 
个 timer 结构 ,loopback 设备 没有 这 个 结构 ,为 什么 呢 ? 分 析 设 备 驱 动 的 初始 化 例 程 即 在 dev open 
函数 中 发 现 这 个 timer 的 时 间 处 理 函 数 指针 都 指向 了 各 自 的 所 谓 watchdog PAA. PAAR KAZ 
开发 的 读者 可 能 要 在 此 处 迷惑 ，watchqog 一 般 都 是 值 防止 某 个 应 用 程序 出 现 长 时 间 占 用 CPU 而 
提出 的 概念 , 外 什么 要 这 这 里 讨论 watchdog WE? 原因 在 于 此 dog JEW qog。 在 网 络 设 备 驱 动 里 ， 
这 个 watchdog 就 只 是 用 来 轮 询 接 口 状 态 的 定时 器 函数 .Loopback 不 需要 检测 链 路 状态 , 所 以 ， 
它 就 没有 这 个 函数 ， 读 者 们 明白 了 吗 ? 

我 们 来 看 看 这 个 定时 器 是 如 何 工作 的 。 当 设备 管理 器 调用 某 个 网 卡 驱 动 dev>open 例 程 的 时 
候 ， 就 给 这 个 驱动 指定 一 个 定时 器 ， 其 处 理 函 数 约定 熟 成 的 叫做 xxx_watchdog， 当 然 也 有 某 些 驱 
动 程序 开发 者 为 了 避免 概念 混淆 ， 只 给 它 起 了 一 个 很 普通 的 名 字 ， 比 如 xxx_timer。 在 实现 这 个 处 
理 函 数 中 ， 一 般 有 这 样 的 惯例 : 

第 5 步 . 轮 询 时 间 一 般 在 1 秒 以 上 
Hor. 读 取 设备 芯片 关于 网 口 的 寄存 器 ， 检 查 其 是 否 变 化 
第 7 步 . 如 果 有 变化 ， 统 一 调用 netif_carrier_on 或 netif_carrier_off 来 通知 系统 内 部 其 他 模块 ， 比 

如 邻居 子 系统 。 

由 于 每 个 驱动 程序 的 实现 不 一 样 ， 而 定时 器 这 一 部 分 相对 一 致 ， 我 们 就 不 仔细 研究 设备 驱动 
程序 的 实现 了 。 现 在 假设 我 们 有 一 台 没 有 接 网 线 的 主机 ， 当 我 们 插 上 另 一 端 已 经 有 主机 的 网 线 ， 
“watchdog 定时 器 扫描 发 现 已 经 链 路 已 经 有 信号 时 ， 就 会 调用 netif_carrier_on 函数 ,其 
实现 如 下 : 
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1. void netif carrier on(struct net device *dev) 





( 
去 掉 NO CARRIER 标志 ， 然 后 进入 下 面 的 函数 。 



































3. if (test and clear bit( LINK STATE NOCARRIER, &dev-»state)) 
4. linkwatch fire event (dev); 
tu Hye NOH. MA AS EER SE EI 281-10 
5. if (netif_running (dev) ) 
Bs __netdev_watchdog_up (dev); 
dice 3) 








代码 段 3-32 netif carrier on 函数 


linkwatch fire event 函数 比较 复杂 ， 我 们 在 这 里 不 打算 列 出 其 代码 ， 不 过 还 是 给 读者 它 完 成 
的 工作 : 
1. 创建 一 个 lw_event{} 结 构 ， 表 示 一 个 事件 。 
2. 把 这 个 结构 挂 到 lweventlist 工作 队列 上 。 
3. 调用 schedule work 或 schedule delayed work (如 果 当 事件 太 频 繁 ) 促使 内 核对 lweventlist 
扫描 并 执行 该 节点 上 回调 函数 一 一 linkwatch_event。 
当 系 统 有 时 间 处 理工 作 队 列 时 ， 执 行 linkwatch_event: 
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linkwatch_run_queue 扫 
内 部 主要 逻辑 2 















dev->flags & 
IFF UP 


false à 
1E 直接 返回 


v v 
dev activate dev. deactivate 


+ 


netdev_state_change 












































图 表 3-35linkwatch_run_queue 内 部 主要 逻辑 











之 所 以 要 将 图 中 两 个 函 底 ， 是 因为 在 将 来 的 设备 发 送 /接收 过 程 中 要 接触 到 这 两 个 
函数 的 工作 。 现 在 我 们 先 放 在 一 边 ， 看 看 netdev_state_change。 此 函数 比较 简单 ， 但 是 非常 重用 ， 
它 就 是 设备 连接 邻居 子 系统 的 通 
raw notifier call chain (&netdev chain, NETDEV CHANGE, dev); 
到 此 为 止 ， 驱 动 程序 的 任务 基本 完成 ， 接 下 来 要 看 看 这 行 代码 到 底 做 了 什么 事 。 
驱动 程序 最 终 发 送 了 一 个 notify, 其 接收 对 象 netdev_chain 链表 ， 凡 是 对 网 络 设备 事件 
感 兴趣 的 模块 ， 都 要 挂 在 这 个 链表 上 。 搜 吉 整 da 尺码 ， 可 以 看 到 挂 接 到 此 链表 的 子 系统 挺 多 的 ， 
但 是 ， 对 NETDEV_CHANGE 这 个 事件 感 兴趣 的 ， 咽 ， 几 乎 没有 。 






































































































































刷新 一 下 定时 
器 ， 喻 也 不 干 


Dev 








netdev_state_change 








图 表 3-36 NETDEV_CHANGE 事件 


从 上 图 可 以 看 出 ， 没 有 人 对 设备 的 状态 的 变化 感 兴趣 ， 所 以 ， 可 以 回答 前 面 的 问题 了 : 网 卡 
接口 是 否 接 通 与 ARP 工作 与 否 或 其 他 子 系统 没有 直接 关系 。 也 就 是 说 ， 如 果 网 口 从 物理 down 变 
成 物理 up， 不 会 触发 ARP 或 路 由 系统 的 变化 。 
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第 4 章 网 络 层 实 现 的 初步 研究 


























































































































4.1 ”从 Ping 127.0.0.1 开始 旅程 
Ping 是 潜水 艇 人 员 的 专用 术语 ， 表 示 回 应 的 声 纳 脉 冲 ， 在 网 络 中 Ping 是 一 个 十 分 好 用 的 

TCP/IP 工具 。 它 主要 的 功能 是 用 来 检测 网 络 的 连通 情况 和 分 析 网 络 速 度 。 
我 们 先 给 出 一 段 ping 的 代码 基本 实现 ， 出 于 篇 幅 的 原因 ， 去 掉 了 一 些 不 重要 的 语句 ， 让 我 们 

只 关心 那些 关键 的 代码 吧 : 

2M #define PACKET SIZE 4096 

zs #define MAX WAIT TIME 5 

Sie 

4. char sendpacket[PACKET SIZE]; 

5. char recvpacket[PACKET SIZE]; 

6. int sockfd,datalen-56; 

7. int nsend=0,nreceived=0; 

8. struct sockaddr in dest addr; 

S), tel e Lelik 

LO. Se ruUct SoC kaddr nm, 

11. struct timeval tvrecv; 

12. 

13. void statistics () 

I4: { 

15. PENE fe (o oo o oc ) ; /x 打 印 统计 信息 */ 

T5; close(sockfd); 

LT. exit (1); 

1L) c 

19. /* 校 验 和 算法 */ 


WWWWWWWWWWNNNNNNN ND LN 
WO 0 SI ON ON 4» CQ) lOH OO i'o00-10Y01 4» (Q0 NEF O 


DBP PD 
(G3) Tks) [= (emi 


A 
心 


45. 


Or FP PB 
© W ORO, 


. unsigned short cal_chksum (unsigned short *addr,int len) 





} 





/ * V ICMP 报头 */ 


int pack(int pack no) 


int i,packsize; 
teat em MESA IST 
struct timeval *tval; 


icmp- (struct icmp*)sendpacket; 

icmp-»icmp type-ICMP ECHO; 
icmp->icmp_code=0; 

icmp->icmp_cksum=0; 
icmp->icmp_seq=pack_no; 

icmp->icmp_id=pid; 

packsize=8+datalen; 

tval= (struct timeval *)icmp-»icmp data; 
gettimeofday (tval,NULL); /* 记 录 发 送 时 间 */ 
/* 校 验算 法 */ 

icmp->icmp_cksum = cal_chksum((unsigned short *)icmp, 
return packsize; 


/* 发 送 三 个 ICMP 报 文 */ 


{ 


void ea 


int packetsize; 
while( nsend < 3) 
{ 


nsendt+; 


packsize); 
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SL c 
52E 
CE 
54. 
Soc 
56. 
oTo 
58. 
SO 
60. 
Gul « 
62. 
63. 
64. 
65. 
66. 
OW. 


68. 
69. 
Vo. 
TAR 
Ws 
Wc 
74. 
WS. 
76. 
Ui. 
TE: 
YO: 
80. 
9L c 
82. 
SB. 
84. 
85. 
86. 
9c 
88. 
82. 
9E 
OL c 
oZ c 
EE 
94. 
95 c 
9$. 
OFEN 
9$. 
99. 


MOOR 
O 
1027 
TOS 
104. 
LOS .- 
106. 
107. 
108. 
LO. 
LILO. 
ALL 
IZ 
LIS. 
114. 
Li's « 
ILLS e 


packetsize = pack(nsend); /*i ICMP 报头 */ 
sendto(sockfd, sendpacket, packetsize, 0, 
(struct sockaddr *) &dest_addr, sizeof (dest_addr) ) 





sleep(1); /* 每 隔 一 秒 发 送 一 个 ICMP 报 文 */ 
} 
/* 接 收 所 有 ICMP 报 文 */ 


void recv_packet () 


{ 

















int n,fromlen; 


while( nreceived < nsend) 


{ 
alarm(MAX WAIT TIME); 


recvfrom(sockfd,recvpacket,sizeof(recvpacket),0, 


(struct sockaddr *)&from,&fromlen); 放 显 示 相 关 信 息 * 


gettimeofday(&tvrecv,NULL); /* 记 录 接 收 时 间 */ 
unpack(recvpacket, n) /* 对 该 ICMP 报 文 进行 解析 */ 
nreceivedt+; 














} 
/* #22 ICMP 报头 */ 
int unpack(char *buf,int len) 
{ alia al, ajolayelre ikea e 
See je. "aber 
State ee sem em 
struct timeval *tvsend; 
double rtt; 


ajo = (eibi jg 31995007 
iphdrlen = ip->ip_hl<<2; /* 求 ip 报头 长 度 , 即 ip 报头 的 长 度 标志 乘 4*/ 
icmp = (struct icmp *) (buftiphdrlen); /* 越 过 ip 报头 ,指向 ICMP 报头 */ 


len -= iphdrlen; / * ICMP 报头 及 ICMP 数据 报 的 总 长 度 */ 
is ( lem « 8) /* 小 于 ICMP 报头 长 度 则 不 合理 */ 





0 


ragin cg 
} 
/* 确 保 所 接收 的 是 我 所 发 的 的 ICMP 的 回应 */ 
if( (icmp->icmp_type == ICMP ECHOREPLY) && (icmp->icmp_id == pid) 


























nt ); /* 显 示 相 关 信息 */ 





else 
even —dLp 


} 


main(int argc,char *argv[]) 

{ 
unsigned long inaddr=01; 
int size=50 * 1024; 

















/* 生 成 使 用 ICMP 的 原始 套 接 字 ， 其 protocol 是 17*/ 
sockfd=socket (AF_INET, SOCK_RAW, IPPROTO_ICMP) ; 


























/* 扩 大 套 接 字 接 收 缓冲 区 到 50K 这 样 做 主要 为 了 减 小 接收 缓冲 区 溢出 的 

的 可 能 性 , 若 无 意 中 ping 一 个 广播 地 址 或 多 播 地 址 , 将 会 引 来 大 量 应 答 */ 
setsockopt (sockfd,SOL SOCKET,SO RCVBUF,&size,sizeof(size) ); 
bzero(&dest addr,sizeof(dest addr)); 
dest addr.sin family-AF INET; 














send packet (); /* 发 送 所 有 ICMP 报 文 */ 


) 





A^ 
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LiF. recv. packet(); /* 接 收 所 有 ICMP 报 文 */ 
118. statistics(); /* 进 行 统计 */ 

LL 

T2208 return 0; 

121. ) 





代码 段 4-1 ping 的 伪 代 码 














从 上 面 的 代码 可 以 看 出 ，ping 使 用 了 SOCK_RAW 的 方式 调用 socket 系统 接口 。SOCK_RAW 
的 含义 即 基于 IP 层 协议 建立 的 通信 机 制 。 
Ping 回 送 地 址 是 为 了 检查 本 地 的 TCPAP 协议 有 没有 设置 好 ;Ping 本 机 IP 地 址 ， 这 样 是 为 了 
检查 本 机 的 IP 地 址 是 否 设 置 有 误 ; Ping 本 网 网 关 或 本 网 IP 地 址 ， 这 样 的 是 为 了 检查 硬件 设备 是 
和 否 有 问题 ， 也 可 以 检查 本 机 与 本 地 网 络 连接 是 否 正常 〈 在 非 局 域 网 中 这 一 步骤 可 以 忽略 );，Ping 
远程 IP 地 址 ， 这 主要 是 检查 本 网 或 本 机 与 外 部 的 连接 是 否 正常 。 
如 果 连 本 地 址 无 法 Ping 通 ， 则 表明 本 地 机 TCP/IP 协议 不 能 正常 工作 。 


4.2 “再 次 相遇 Socket 系统 调用 
回想 一 下 socket 调用 到 inet. create 的 时 候 ， 当 如 果 是 RAW 应 用 的 话 ， 就 会 有 如 下 的 代码 片 
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E, 

1. staticint inet create(struct socket *sock, int protocol)if (SOCK RAW == sock->type) 
{ 
这 几 句 赋值 很 有 意义 ， 我 们 要 在 send 的 实现 代码 中 经 常 看 到 inet Dhdrincl 这 个 变量 ， 记 住 ， 在 目前 的 
ping 应 用 中 ， 这 个 值 是 0， 因为 我 们 应 用 层 设 置 的 protocol 是 IPPROTO_ICMP。 还 有 ，num 也 被 赋予 
一 个 值 ， 大 家 应 该 记 住 ，num 其 实 就 是 TCP/UDP 中 提 到 的 端口 号 ， 不 过 在 RAW IP 中 这 个 num 表示 一 种 
协议 而 已 ， 不 是 真正 的 “端口 号 ”。 

ORE inet-»num = protocol; 

ce (RO ONSE = noe 

4. sLineie—Slovcliaiin@ll iN 


这 里 sk protocol 是 IPPROTO ICMP 
So  Gik-owek I5 Ouo69 = protocol; 

下 面 执行 的 是 raw_prot 中 的 raw_init 函数 
$5 ae (eh peo) 4 
E err = sk-»sk prot -init (sk); 





























代码 段 4-2 raw socket 情况 下 的 inet_create 函数 


再 次 碰 到 的 socket 函数 参数 发 生 了 变化 ， 和 前 一 章 机 会 没有 变化 ， 只 是 在 inet_create 函数 中 
创建 socket 时 sock>ops 48m] f inet sockraw ops. if] sk>sk_prot ff IH) f raw_prot。 相 应 的 
sk>sk_prot>init 被 执行 ， 不 过 它 不 能 满足 读者 的 求知 僻 ， 因 为 它 内 部 没有 什么 可 以 研究 的 东西 。 





























4.3 IP 数据 报 文 格式 
与 其 他 书籍 将 报 文 帧 结构 放 在 附录 的 安排 不 一 样 ， 我 把 协议 报 文 的 数据 结构 放 在 前 面 ， 这 说 
WA? iu. 帧 结构 是 非常 重要 的 一 部 分 ， 对 于 网 络 协议 ， 报 文 帧 结构 就 是 核心 ， 所 有 的 代码 
都 围绕 这 些 结构 来 运行 。 每 个 读者 ， 都 必须 先 把 报 文 帧 结构 熟 记 于 心 ， 当 然 ， 如 果实 在 记 不 住 ， 
翻 到 这 一 页 就 可 以 了 。 
IP 协议 用 于 管理 客户 端 和 服务 器 端 之 间 的 报 文 传送 。 普 通 的 IP 首部 长 为 2 0 个 字 节 , 除非 含 
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有 选项 字段 。 
IP 头 结构 如 下 : 
| 4b 
4 版 | 部 长 | 4bTos 16b 总 长 度 〈 字 节 数 ) 
ZEN 
BA 
3b 
16b 标识 标 13b 段 偏 移 
= 
8b TTL 8b 协议 16b 头 部 校 验 和 
32b JEIP 
32b 目的 IP 
选项 (如 果 有 ) 
Payload 














图 表 4-1 IP 层 数据 报 文 格式 


分 析 图 4- 1 中 的 首部 。 最 高 位 在 左边 ， 记 为 0 bit， 最 低位 在 右边 ， 记 为 31 bit. 

4 个 字 节 的 32 bit 值 以 下 面 的 次 序 传输 : 首先 是 0—7 bit, H 8-—15 bit， 然 后 1 6 一 23 bit, 

最 后 是 24~31 bit。 这 种 传输 次 序 称 作 big endian FJ. HH TCP/IP 首部 中 所 有 的 二 进 
制 整数 在 网 络 中 传输 时 都 要 求 以 这 种 次 序 ， 因 此 它 又 称 作 网 络 字 节 序 。 以 其 他 形式 存储 二 进 制 整 


























数 的 机 器 ， 如 little endian 格式 ， 










































































则 必须 在 传输 数据 之 前 把 首部 转换 成 网 络 字 节 序 。 目 前 的 协议 版 


本 号 是 4， 因 此 IP 有 时 也 称 作 IPv4。 






































首部 长 度 指 的 是 首部 占 32 bit 字 的 数目 ， 包 括 任何 选项 。 由 于 它 是 一 个 4 比特 字段 ， 因 此 首 


























部 最 长 为 60 个 字 节 。 普 通 IP 数据 报 ( 没 有 任何 选择 项 ) 字段 的 值 是 5。 
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Cm 












































服务 类 型 (TOS ) 字段 包括 一 个 3 bit 的 优先 权 子 字段 (现在 已 被 忽略 ), 4 bit 的 TO S 子 字段 和 1 bit 
位 但 必须 置 0。4 bit 的 TO S 分 别 代表 : 最 小 时 延 、 最 大 吞吐 量 、 最 高 可 靠 性 和 最 小 费用 。4 bit 
中 只 能 置 其 中 1 bit。 如 果 所 有 4 bit 均 为 0, 那么 就 意味 着 是 一 般 服 务 .RFC 1340[Reynolds and Postel 













































































44 send 系统 调用 


























1992] 描述 了 所 有 的 标准 应 用 如 何 设置 这 些 服务 类 型 。RFC 1349[Almquist 1992] 对 该 RFC 进行 了 
网 正 ， 更 为 详细 地 描述 了 TOS 的 特性 








这 个 系统 调用 我 们 之 前 研究 配置 的 时 候 没 有 碰 到 ， 现 在 总 算 与 之 相遇 ， 现 在 我 们 就 开始 研究 























发 送 的 具体 流程 吧 。 






























































我 们 知道 socket 应 用 程序 一 般 使 用 send 或 sendto 系统 调用 发 送 数据 , 那么 它们 到 底 什 么 区 别 








呢 ? 下 面 的 图 会 给 你 一 些 答案 。 
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注意 ， 过 去 的 内 核 版 本 是 单独 把 send 作为 一 个 系统 调用 放 在 系统 调用 表 中 ,现在 是 统一 经 























过 sys_socketcall 系统 调用 接口 转 进来 。 不 过 对 于 我 们 没有 什么 区 别 ,同样 的 , 之 后 要 介绍 的 recv、 


bind, listen 等 函数 都 如 此 ) 
































sys_send 注意 实际 上 send 调 用 “天 
的 是 sendto 的 实现 ， sys_sendmsg 
只 是 参数 有 不 同 









































sys_sendto 




















sock_sendmsg 


























根据 v inet stream ops 
TCP/UDP/RAWIP^ 
__sock_sendmsg 此 ops 分 别 是  .w| inet dgram ops 














.—M, inet sockraw ops 





























sock->ops->sendmsg | 





inet_sendmsg 











图 表 4-2 sys send 函数 调用 树 





























在 用 户 态 调用 的 系统 接口 send 和 sendto 及 sendmsg， 其 实 都 调用 了 sock_sendmsg， 而 且 用 得 






































较 多 的 send 调用 的 sendto， 只 是 参数 要 注意 ， 内 核 代 码 如 下 : sys_sendto(fd, buff, len, flags, NULL, 
0); 即 最 后 两 个 参数 为 0 (NULL). 








在 BSD Socket 层 使 用 msghdr{} 结 构 保 存 数据 ， 在 INET Socket 层 以 下 都 使 用 sk_buff{ } 结 构 




















保存 数据 。msghdr{ } 结 构 是 出 于 对 4.4BSD 的 兼容 性 而 定义 的 ， 内 核 内 部 函数 sock_sendmsg (), 
sock_recvmsg () 都 使 用 这 个 结构 。 其 定义 如 下 : 














o Sal OS 0) N P! 


[> ke) 
(sj o 


Wak. 


/* 
* As we do 4.4BSD message passing we use a 4.4BSD message passing 
* system, not 4.3. Thus msg accrights(len) are now missing. They 
* belong in an obscure libc emulation or the bin. 
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struct msghdr 
{ 















































void* msg_name; /* Socket 名 称 ， 一 般 用 NULL 初始 化 EA 

Liae msg_namelen; /* 上 面 名 称 的 长 度 ny 

struct iovec * msg iov; /* 发 送 或 接收 的 数据 块 结构 EA 
kernel size t msg iovlen; /* 数据 块 的 个 数 EA 

void * msg control; /* 每 个 协议 一 个 magic 数 (eg BSD 传递 文件 描述 符 ) */ 
kernel size t msg controllen; /* cmsg 链表 的 长 度 */ 








unsignedmsg_flags; 








代码 段 4-3 msghdr 结构 


























msg name 和 msg_namelen 就 是 数据 报 文 要 发 向 的 对 端的 地 址 信息 〈 即 sendto 系统 调用 中 的 








addr 和 addr len)， 当 使 用 send 时 ， 它 们 的 值 为 NULL 和 0。 








dhe 


YAU BWND 


/* A word of warning: Our uio structure will clash with the C library one (which is 
now obsolete). Remove the C library one from sys/uio.h if you have a very old library 
SCA 


struct iovec 
{ 
Weulel wise NOUO MISC (= BSD Uses Cacllie CENTRO) ls woul ~)) “/ 
Keene lm su cu lo en m sae VISEe dS ST CNRC O OS OSA 





he 
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代码 段 4-4 iovec 结构 








结构 表示 存放 待 发 送 数据 的 一 个 缓冲 区 ，iov_base 是 缓冲 区 的 起 始 地 址 ， 指 向 用 户 层 待 发 


"v iov. len 是 缓冲 



































区 的 长 度 ,msg_iovlen 是 缓冲 区 的 数量 ,对 于 sendto 和 send 来 讲 , msg, iovlen 











都 是 1. msg flags 即 为 传 入 的 参数 flags， 现 在 暂时 不 过 多 的 关注 flags 的 应 用 。msg_control 和 


msg_controllen 暂时 不 关注 。 


msghdr 








m» void user "iov base 











iovec * msg iov 





msg. iovlen 






























alins os 
用 户 空 间 数据 





iov_len 











图 表 4-3 meghdr 如 何 指向 用 户 空间 数据 

















参照 图 4-2， 看 到 虽然 TCP/UDP/RAWIP 的 ops 分 别 有 一 个 ， 这 里 的 RAW IP 对 应 的 ops 是 


inet_sockraw_ops， 其 对 应 的 sendmsg FÉ 
sendmsg 函数 指针 也 指向 到 这 个 函数 。 














数 指 针 成 员 都 指 问 inet_sendmsg， 而 且 其 它 两 种 协议 的 











[un 


Ow WN 





int inet_sendmsg (struct kiocb *iocb, struct socket *sock, struct msghdr *msg, size t 


size) 


{ 


struct sock *sk 





/* 我 们 可 能 要 绑 定 这 个 socket. 这 里 
1E bind, HIT 





























要 提醒 读者 的 是 RAW IP 也 有 自己 的 bing 函数 ， 只 不 过 此 bind JE 











4 
在 inet, create 函数 中 针对 RAW socket 曾经 做 了 inet-»num = protocol 这 么 一 个 动 
g 应 














HERR 





作 ， 而 在 ping 
A 


if (linet sk(sk)-»num && inet autobind(sk)) 
return -EAGAIN; 


return sk->sk prot-»sendmsg(iocb, sk, msg, size); 





rH protocol 是 IPPROTO ICMP (1), 所 以 num=1, FÆ 






































TES JATARI. 

















代码 段 4-5inet_sendmsg 函数 








什么 情况 下 会 执行 inet_autobind 函数 呢 ? 就 是 当 创建 UDP/TCP 的 socket 后 即 调用 send 函数 











发 送 数据 〈 这 是 一 般 客 户 端 代 码 的 行为 方式 )， 于 是 就 会 调用 到 此 函数 ， 因 为 之 前 的 inet. create K 











数 没有 给 这 种 类 型 的 socket 指定 
^^ inet autobind BEES. lin 
现 get port 函数 ， 所 以 


























num。 所 以 凡是 TCP/UDP 的 客户 端 必定 会 进入 到 此 函数 中 。 那 












































调用 了 sk->sk_prot->get_port， 很 明显 ， 由 于 RAW IP 没有 实 
8H] udp/tcp_v4_get_port 函数 获得 未 使 用 的 port 号 赋 给 inet->num, 

















然后 义 把 它 赋 给 ee ms o RIZE UDP 一 章 中 继续 了 解 。 




















上 文 已 经 说 过 , | 








函数 指针 就 是 raw_sendmsg 函数 。 
对 于 使 用 RAW 选项 打开 的 socket， 


























类 型 的 socket， 所 以 实际 指向 raw. prot 结构 。 那么 相应 的 sendmsg 











其 对 应 的 函数 是 raw_prot>raw_sendmsg, 











static int raw sendmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg, 


size_t len) 


{ 


struct inet_sock *inet 


inet_sk (sk); 
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4 struct ipcm cookie ipc; 

D struct rtable *rt - NULL; 

6 . int free = 0; 

hss u32 daddr; 

8. u32 saddr; 

De us tos; 

OR atia. (Suede p 

iil. 

LD an et 

IS}. 

EAN i 

Lsp * Get and verify the address. 
16. E 

17 5 

THX if (msg-»msg namelen) { 

ALS): struct sockaddr in *usin = (struct sockaddr in*)msg-»msg name; 
PAO On M 

2u daddr = usin->sin_addr.s_addr; 
RS SNR Ser oie 

23. ) else ( 

24. err = -EDESTADDRREO; 

257 if (sk->sk_state != TCP ESTABLISHED) 


GOLO out. 
daddr = inet-»daddr; 


ipc.addr = inet-»saddr; 
ipc.opt = NULL; 
ipc.oif = sk-»sk bound dev if; 


if (msg-»msg controllen) { 
err = ip cmsg send(msg, &ipc); 


saddr = ipc.addr; 


B C0 C0 C0 C0 C0. CO. CO. CO CO. CO. I2. DD DY 
QO «o0 0 -10) Ui :5 Q0 N) IP OW O0 -1 Oo 













































































: ipc.addr = daddr; 

41. 

42. aie (Vale eed) 

qv IOS Oe ne GP 

44. 

ADs ab (joe joie) 4 

46. err = -EINVAL; 

AF} /* Linux 不 会 处 理 raw socket 的 头 ， 所 以 IP 选项 + IP_HDRINCL 没有 意义 

48 . ef 

49. if (inet->hdrincl) 

50 goto done; 

eui alse (Gus sepes) 1 

52 if (!daddr) 

5S goto done; 

54 daddr = ipc.opt-»faddr; 

55 } 

56 } 

E tos = RT CONN FLAGS(sk); 
msg-»msg flags 在 此 ping 应 用 中 是 0， 如 果 曾 经 设置 了 MSG_DONTROUTE， 会 对 后 面 的 路 由 查找 有 
影响 

DIOS if (msg-»msg flags & MSG DONTROUTE) 

59. tos |= RTO ONLINE; 

60. 

61 M e 

(2 

63.5 { 

64. Sen et dedhexwaL sil = if g@slie = aly Osi, 

SS Sigil el (As 

66. ( .daddr = daddr, ”7/#* 目 的 地 址 */ 

67. .saddr = saddr, / * ds HOLE * / 

68. EOS ctos c y. 




















如 果 包 含 IP 头 , 就 是 普通 的 RAW 类 型 ,否则 就 是 用 户 定义 的 类 型 ,在 创建 socket IT (caw socket 
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GIOI 
T1) 6 
TA s 


Ue 
Us 


74. 
755 
TG s 
ils 
US 5 
V5 
80. 
81. 
82. 
83. 
84. 


85. 
86. 
Shilo 
88. 
3) 6 


90. 
9e 
9o 


935 
94. 
996 
96. 
OE 


98. 


99. 





back from confirm: 


100. 
OAL 5 
102. 
OBE 
104. 
LOS ¢ 
OG, 
LOT 
108. 
LO) « 
JL3LQ) 
LAL 6 
WALA 5 
JE3L S5 
114. 
LAS 6 





情况 下 inet_create MAMMA 3. A fT) RINGAKE inet->hdrincl 为 0， 所 以 .proto 就 是 
sk_protocol， 它 将 被 写 到 报 文 头 中 。 
在 此 sk_protocol 是 IPPROTO_ICMP 报 文 ， 其 值 是 17 
.proto = inet-»hdrincl ? IPPROTO RAW 
Sk-»sk protocol, 





























}; 
此 函数 只 对 IPPROTO_ICMP 感 兴趣 ， 正 好 合乎 我 们 目前 的 应 用 ， 它 将 用 户 空间 的 icmp type 类 型 拷贝 
到 内 核 空间 的 £1 结构 中 
if (!inet->hdrincl) 
raw probe proto opt(Sfl, msg); 
对 £1owi 结构 填 入 了 必要 的 信息 ， 然 后 传 入 下 面 的 函数 ， 并 将 路 由 模块 计算 出 的 信息 放 入 rt 结构 中 。 
YER, rt 是 在 该 函数 内 部 (具体 在 ”mkroute_output, 下 面 会 讲 ) 创建 ， 所 以 必须 传 grt 而 不 是 rt. 
err-ip route output flow(&rt,&fl,sk,! (msg-»msg flags&MSG DONTWAIT)); 



































































































































err = -EACCES; 
if (rt->rt_flags & RTCF BROADCAST && !sock flag(sk, SOCK_BROADCAST) ) 
goto done; 


if (msg-»msg flags & MSG CONFIRM) 
goto do confirm; 















































对 于 普通 的 IP 层 应 用 来 说 ， 应 该 是 执行 下 面 这 行 代码 ， 但 是 对 于 ping 应 用 而 言 ， 执 行 的 却 是 98 行 的 代 
[2 
if (inet-»hdrincl) 
err = raw send hdrinc(sk, msg-»msg iov, len, 
rt, msg-»msg flags); 


else { 

我 们 的 ping 代码 要 走 到 这 是 
alae {(Watyoxehe evelohe)) 

iporaddr e PNET- ERASE, 

lock_sock (sk); 

将 多 个 小 的 报 文 打 包 成 一 个 大 包 ， 不 过 目前 的 情况 还 不 需要 ， 此 函数 还 完成 一 个 很 

skb 然后 把 它 挂 接 到 sk write queue 队列 中 ， 然 后 由 105 行 的 函数 发 送出 去 。 
err = ip append data(sk, ip_generic_getfrag, msg-»msg iov, len, 0, 

&ipc, rt, msg-»msg flags); 




















it 
































ERIS: Hi ~A 





lim 





























if (err) 
ip flush pending frames (sk); 
else if (!(msg-»msg flags & MSG MORE)) 
始 往 IP 层 发 送 报 文 
err = ip_push_pending_frames (sk); 
4 socket 被 锁 住 ， 收 到 的 包 暂 时 不 能 放 入 接收 队列 中 ， 他 们 只 能 放 进 backlog 队列 中 等 待 进一步 的 处 
CI ETUR US SEIS 
} 
done: 
if (free) 
kfree(ipc.opt); 









































sal 


return len; 


GIONE GG ele 
dst confirm(&rt-»u.dst); 





if (!(msg-»msg flags & MSG PROBE) || len) 
goto back from confirm; 
err = 0; 


goto done; 





代码 段 4-6 raw_sendmsg 函数 





ip. append. data 函数 将 许多 小 片 的 数据 整合 成 一 个 足够 大 的 报 文 发 送出 去 , 这 可 以 稍微 提高 一 


A^ 


第 134 页 


























些 性 








能 ， 但 是 如 果 是 使 
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望 内 核对 报 文 做 过 多 干涉 而 要 求 ] 


4.5 ”在 路 由 系统 中 游历 


45.1 查找 出 口 
当 要 发 送 一 个 报 文 时 ， 











来 查询 。 现 在 来 介绍 一 下 路 

@ 路 由 cache 

当 确 定 了 一 条 路 
后 ， 经 过 同样 路 由 
终 的 目 
WAR SX H 
T1 

























































































的 报 文 能 够 立即 找到 出 口 。 

的 也 许 是 本 地 可 达 的 主机 ， 也 可 能 被 发 
的 地 址 对 实际 的 IP 发 送 过 程 是 透明 
指向 指向 目的 cache， 同 样 的 dst 字段 也 指向 路 由 表 的 表 项 。 


直接 发 送出 去 ， 了 





必定 要 查询 发 送 接口 
是 查询 路 由 cache， 第 二 个 步骤 是 查询 FIB 表 ， 第 三 





Cache。 


时 ， 路 由 表 项 就 被 放 入 路 




















文 的 目的 地 址 ， 而 不 用 查找 路 1 











或 显 式 的 检查 目的 














cache 中 ， 这 意 
一 个 报 文 在 本 地 机 器 上 可 以 有 
j 下 一 跳 节 点 。 
的 cache 表 项 可 以 和 路 
这 让 IP 用 有 多 

















IPSE: 
Hj, E 


地 址 是 否 








路 由 cache 可 以 被 看 作 FIB 

















的 。 路 由 cache 的 实现 基于 通用 的 目的 地 址 cache 
key 完成 快速 搜索 。hash 表 的 实现 允许 冲突 ， 
hash bucket) ff 














表 项 。 这 个 表 可 以 用 简单 
以 包含 多 个 路 由 。 卫 中 的 路 | 























cache 是 

















的 子 集 ， 它 是 



































在 此 数组 中 每 一 个 单 7 
向 的 连接 列 


















































RHP o 





rt_hash_table 


w rt_hash_bucket 


rtable *chain 








rtable *chain 














rtable *chain 





dst_entry 


rtable 





用 来 优化 已 知 目 
架构 ， 它 | 











1, 








] RAW IP 的 特殊 协议 ， 使 inet hdrincl 等 于 
于 是 使 用 raw_send_hdrinc 2 

















那么 这 表示 应 月 
函数 来 完成 。 




















入 路 | 





















































| JE 


己 经 被 解析 到 
的 地 址 


味 着 一 旦 知道 路 | 



























































的 已 打 


























个 hash 桶 
元 包含 一 个 指向 路 由 表 的 链 ， 
其 基 本 结构 如 下 : 














每 个 匹配 某 


CB rt. | 





























hash 3€ 2H AK, 


的 地 址 的 路 1 
































^H 


的 








socket 的 快速 


程序 不 希 


， 这 个 过 程 被 Linux 分 为 3 个 步骤 ， 第 一 个 步骤 


步 是 将 查询 结果 填 











cache 中 以 便 将 





并 放 入 cache 
地 址 ， 它 最 
Et， 路 由 和 目的 cache 被 设计 
cache 表 项 互 换 。 为 
的 方法 检查 待 发 送 报 
硬件 地 址 。 


路 





每 一 个 表 项 包 合 


路 














因为 每 一 个 hash 表 位 置 可 
































dst_entry *next 


rtable 
*rt next 





dst entry *child 





rtable/dst entry 


的 实例 ， 叫 rt hase table, 
放 在 一 个 由 链表 指 











net_device *dev 





int flags 





u32 metrics[ ] 





neighbour *neighbour 





int (*input) 





int (*output) 











dst ops *ops 





in. device *idev 





unsigned rt flags 





. u16 rt type 





. u32rt dst 





. u32rt src 





int rt. iif 





u32 rt gateway 





flowi fl 








. U32 rt spec dst 











*rt next/*next 





^ 





E 





rtable/dst entry 





L 





*rt_next/*next 











int oif 





int iif 





nl_u.ip4_u 





proto 





flags 








uli_u.ports 
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图 表 4-4 rt hash table 和 rtable. dst entry 的 关系 























路 由 表 是 路 由 cache 中 存放 每 个 路 由 的 基本 数据 结构 。 本 质 上 它 是 面向 对 象 的 。 这 是 把 路 由 
cache 看 作 是 来 源 于 通用 的 目的 地 址 cache 功能 的 原因 。 例如 ，sk_buff 结构 为 外 发 报 文 包含 一 个 指 
向 目的 cache 表 项 的 指针 ， 这 个 dst 表 项 为 报 文 包含 一 个 指向 路 由 cache 表 项 的 指针 。 因 此 用 相似 
的 方法 ， 这 个 stable 结构 定义 的 首要 的 几 个 字段 指向 目的 cache，dst_entry。 
























































1. struct rtable 
xe 


























我 们 使 用 一 个 联合 ， 使 这 个 指向 下 一 个 rtable 实例 的 指针 即 能 通过 一 个 指向 目的 cache 表 项 的 指针 
(dst) 或 指向 路 由 表 项 指针 (rt next) 访问 。 我 们 检查 skb 里 的 dst 字段 ， 它 指向 目的 cache 表 项 。 
如 果 不 为 NULL， 则 意味 着 该 IP 包 知 道 将 包 发 往 何 处 ， 如果 为 NULL， 则 必须 找到 一 个 路 由 要 么 是 内 部 路 由 ， 
要 么 外 部 路 由 。 
union 


{ 
































































































































struct dst_entry Ost: 
struct rtable *rt_table; 
}u; 
Rt flags 能 被 提供 应 用 程序 接口 的 路 由 表 使 用 。 因 为 在 单个 hash 桶 内 也 许 有 多 个 路 由 ,那么 这 些 路 
冲突 。 当 垃圾 回收 程序 处 理 这 些 路 由 cache， 如 果 和 高 价值 的 路 由 发 生 冲 突 时 ， 低 价值 的 路 由 倾 问 于 被 ; 
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3$ np 





























































































































































































































出 去 ， 路 由 控制 flags 决定 这 些 路 由 的 值 。 
Ss unsigned tee gs; 
Rt type 是 这 个 路 由 的 类 型 ， 它 确定 这 些 路 由 是 否 单 播 、 组 播 或 本 地 路 
oF unsigned rt_type; 
Rt dst 是 IP 目的 地 址 ，rt_src 是 IP 源 地 址 。Rt_iif 是 路 由 输入 接口 索引 。 
HOR EU TERASE, 
eS sy PERSTO, 
d. dL, PETISE; 
13. w32 rt gateway; // 网 关 或 邻居 的 rp 地 址 。 
1a struct flowi fl; // 包 含 实 际 的 nash f, 
15. — USA rt_spec_dst;//W UDP socket 用 户 设置 源 地 址 的 特殊 目的 地 址 [RFC1122] 





























Internet 对 端 结构 被 用 来 生成 在 TP 头 中 的 16 位 标识 ， 它 被 叫做 long-living peer information, 
Linux 通过 增加 对 每 个 指定 的 主机 的 每 个 发 出 去 的 报 文 的 数量 计算 该 ID， 对 此 路 由 该 Internet 对 端 结构 
通过 对 端 指针 访问 。 


HEC Struct inet peer *peer; 

































































代码 段 4-7 rtabl 数据 结构 



































路 由 cache 的 搜索 算法 : 先 用 一 个 简单 的 hash code 定位 hash 桶 里 的 一 个 slot, 然后 用 一 个 key 
去 匹配 一 个 指定 的 路 由 ， 这 必须 遍历 这 个 slot 所 有 的 路 由 列表 直到 rt next 等 于 NULL。 第 二 级 查 
找 是 把 rtable 表 项 中 的 在 字段 和 收 到 的 报 文中 的 信息 进行 精确 匹配 。 旭 结构 包含 了 能 确定 某 路 由 
的 所 有 信息 。 

© flowi 数据 结构 

这 里 我 们 磁 到 一 个 奇怪 的 结构 就 是 flowi。 从 它 的 字面 上 来 理解 似乎 是 和 “ 流 ” 有 关 的 一 个 东 
西 ， 但 源 代 码 中 没有 对 它 进行 详细 解释 。 而 且 ，BSD 协议 栈 中 也 没有 这 么 一 个 结构 。 那 么 它 到 底 
是 什么 呢 ? 其 实 ， 它 就 是 标识 一 个 发 送 /接收 流 的 结构 ， 不 同 用 户 的 业务 流 之 间 是 如 何 被 内 核 区 别 
就 依靠 它 。 所 以 ，flowi 中 的 i 可 以 理解 成 identifier。 首 先 ， 它 的 结构 如 下 : 









































































































































































































































eel 3rdlexwaL di 
下 面 两 个 字段 确定 input 和 output 接口 ，1if 是 输入 接口 索引 ， 它 是 从 net_device 结构 里 的 i£1ndex 
获取 的 ， 这 个 net. device 是 指 收 到 报 文 的 设备 。oif 是 输出 接口 索引 。 通 常 ， 对 于 一 个 指定 路 由 :if 或 
































































































































oif 会 被 赋值 ， 而 其 他 字段 是 0。 
ERS diane: GHEE 
Se akiote, aL SLi p 

下 面 这 个 结构 是 通用 的 ， 所 以 我 们 用 联合 来 定义 Ipv4, Ipv6 fll DECnet: 
4. union { 
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oes struct 4 

(5c IBZ daddr; 

TAN eee GB saddr; 

8. VR fwmark; 防火 墙 mark， 用 来 做 流量 shaping co. 
Tos 是 IP 头 的 Tos 字段 。IP 并 没有 定义 TOS 的 0 位 ,但 Linux 用 它 来 定义 一 个 直 连 的 主机 。 这 个 bit 也 
被 ARP 协议 使 用 。 

9. . u8 tos; MS dul BAR H7 at IT BC TERR 

OF us} scope; jp aloe! iors 

Wil. 

125 Struct 

me TT Estne / /1pv6 的 数据 ,不 用 理会 

143, j 39 1E 

Sys 

I< SEruct 

qo / /dnnet 的 数据 ,不 用 理会 

d. Ind 

ib). ]p or wie 

PAG E rS // Ipv6 和 dnnet 的 数据 ,不 用 理会 

21. #define £14 dst nl_u.ip4_u.daddr 

22. #define £14 src nl u.ip4 u.saddr 

23. #define £14 fwmark nl u.ip4 u.fwmark 

24. #define f14 tos ib Ul A 

25. #define £14 scope nl_u.ip4_u.scope 

26 

alee OEE 

287 — u8 flags; 

AO define FLOWI FLAG MULTIPATHOLDROUTE 0x01 

S union { 

Se SEW di 

dE edt Sent 

SE cb dport; 

34. ] Joss 

35. 

36. Stroct 4 

3 s . u8type; 

RTI . u8 code; 

39. ) icmpt; 

40. 

abe struct f 

1) o Abbat //dnnet 的 数据 ,不 用 理会 

d. ) dnports; 

44 

45. —— W2 Spas 

46. oup 


47. #define fl ip sportuli u.ports.sport 
48. #define fl ip dportuli u.ports.dport 
49. #define fl icmp type WLS en SESS 


50. #define fl icmp code uli u.icmpt.code 
51. #define fl ipsec spi uli u.spi 
S2. j . attribute .(( aligned J (BITS PER LONG/8))); 





代码 段 4-8 flowi 结构 


从 上 面 结构 定义 可 以 看 到 ， 一 个 数据 报 文 有 源 、 目 的 地 址 端口 ， 有 proto 选项 ， 有 用 户 定义 的 
类 型 ， 甚 至 有 入 接口 和 出 接口 ， 那 么 ， 通 过 这 些 标识 ， 就 可 以 唯一 的 确定 某 用 户 的 业务 流 。 然 后 
你 就 可 以 对 某 一 个 指定 的 流 碍 找 其 路 由 。 好 啦 ， 可 以 这 么 说 ， 路 由 是 网 络 内 不 同业 务 流 的 标识 ， 
而 flowi 是 操作 系统 内 部 不 同业 务 流 的 标识 。 内 核 通 过 从 TCP E IP 报 文 头 中 抽取 相应 的 信息 填 入 
到 flowi 结构 中 ， 然 后 路 由 查找 模块 根据 这 个 信息 为 相应 的 流 找到 对 应 路 由 。 所 以 说 ，flowi 就 是 
一 个 查找 key。 

路 由 的 范围 放 在 flowi 结构 的 scope 字段 ， 我 们 可 以 想象 这 个 “scope” 是 到 目的 地 址 的 距离 。 
它 是 用 来 确定 如 何 路 由 报 文 和 如 何 归 类 这 些 路 由 。 上 表 的 scope 值 用 在 fib. result 里 的 scope 字段 
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和 next. hop 结构 的 fib_nhs 4 
的 范 
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里 的 nh_scope 字段 ， 月 























围 是 0~199， 当 前 ，Linux Ipv4 经 常 使 
























































日 户 创建 的 特定 路 1 
的 是 RT SCOPE UNIVERSE, RT SCOPE LINK 或 

















表 应 用 程 户 














可 以 定义 scope 



































































































































































































































RT_SCOPE_HOST。 较 大 的 数 暗 示 更 接近 目的 地 (除了 RT_SCOPE_NOWHERE， 表示 目的 地 不 存 
在 )。 

每 个 路 由 表 项 即 rtable 的 第 一 部 分 包含 一 个 目的 地 址 cache 表 项 结构 ， 叫 dst_entry， 它 包 扩 用 
来 指向 管理 cache 表 项 的 相应 函数 一 一 dst_ops 结构 ， 对 于 IP Route Cache 的 dst. ops ffi a 下 (注意 
表 中 的 路 由 表 项 指 的 是 路 由 cache 中 的 表 项 ， 不 是 FIB 中 的 表 项 ): 
表格 4-1 
dst ops 里 的 字段 ”| 相应 的 值 或 函数 目的 

Family AF_INET IPv4 地 址 族 . 

protocol ETH P IP 链 路 层 的 协议 字段 ， 必 须 为 0x0800. 

gc rt_garbage_collect 垃 TS 回收 函数 

check ipv4_dst_check 前 为 空 函 数 

destroy ipv4_dst_destroy 删除 路 由 表 项 的 函数 

negative_advice | ipv4_negative_advice 如 果 任 何 表 项 要 重 定向 或 者 要 被 删除 的 时 候 就 调用 此 函 

数 
link_failure ipv4_link_failure 发 送 一 个 ICMP unreachable 消息 并 让 这 条 路 由 作废 ， 通 
常 此 函数 由 arp. error. report 调用 

update_pmtu ip_rt_update_pmtu 更 新 某 路 由 的 MTU 值 

entry_size sizeof(struct rtable) 指定 路 由 表 项 的 大 小 . 

在 raw sendmsg K 2 F yj HY [| ip route output flow , 1E - 只 是 简单 的 调用 了 

=e route_output_key， 只 是 参数 有 所 不 同 。 这 些 比较 重要 的 参数 ， 合 上 面 给 出 的 代码 仔细 研 








把 该 路 | 
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的 超 
断 该 路 
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首先 ， 通 过 检查 dst entry 的 废除 字段 看 是 否 该 路 
还 到 slab cache, 否则 , 我 们 想 删 除 到 某 























已 经 被 重 路 




















所 有 路 由 。 














过 调 月 





一 些 路 | 
































cs 它 增 加 


0 个 、 


一 条 





1 个 或 多 个 1 





Xi 

















没有 


rt_garbage_collect 




















匹配 的 项 ， 











cache 函数 被 直接 i 
日 通用 的 dst_release 2 











接 调 


冰 数 删除 一 








, WR, MEF 


用 ， 其 中 一 
条 路 



































所 计算 32 位 hash 值 3 


被 废除 。 e 就 调 
的 地 址 所 有 的 路 由 。。。 我 们 通过 












































路 由 。 然 后 该 函数 月 
移 到 链表 的 
由 rt 会 放 在 


匹配 的 ， 就 把 这 个 路 | 
那么 新 路 








了 关于 到 路 | 
























































删除 路 | 














间 ， 就 返回 ENOBUFS 错误 代码 。 


ip route output, slow 和 ip. route input slow 5 


一 旦 有 一 条 指向 非 直 连 主机 的 外 部 地 址 的 路 
需要 创建 一 些 特别 


H. TCP 可 以 与 对 端 协商 最 大 端 长 度 的 选项 ， 那 么 就 可 以 通 ; 
Ll 体 流程 就 是 下 面 的 函数 : 



































Art 4 
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output 调 








用 rt intern. hash 
最 匹配 的 位 置 ， 























用 ip. rt. put 函数 











时 字段 看 该 表 项 是 否 过 期 ， 或 者 看 rt flag 标志 是 否 已 被 打上 RTCF_REDIRECTED 标志 
调用 rt. del 删除 匹配 hash fi 





部 分 函数 被 定义 成 内 联 函 数 ， 比 如 ip rt put, 
|。 再 如 rt_bind_peer， 它 给 某 路 由 创建 一 
表 中 的 目的 地 址 的 信息 。 
新 的 路 由 为 发 送 报 文 准备 好 后 ，ip_route 
用 hash T rt hash table 的 参数 ， 这 个 索引 只 是 定位 到 





PR 




















HJ flowi 部 分 去 匹配 其 中 的 一 
前 面 ， 增 加 它 的 使 用 计数 器 ， 然 后 释放 新 的 路 | 
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TM 
AA 






































链表 的 前 面 。 如 果 邻 居 cache 好 像 满 了 ， 我 们 就 调 
， 直 到 有 足够 的 


检查 dst_entry 
:来 判 
有 位置 的 
































它 通 
条 对 端 表 项 ， 





数 ，rt_inten_hash 
那个 位 置 可 以 包含 
。 如 果 它 














找到 一 个 
rt。 如 果 





























H 





间 放 置 新 路 由 。 如 果 rt intern hash 7 REFR 2 28 





么 两 个 主要 的 路 1 





解析 函数 : 














。 例 如 ，IP RRE MTU, m 





n 
忌 


调用 rt set nexthop 去 设 定 这 些 信息 。 
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现 给 出 _ip_route_output_key 的 代码 : 


















































































































































ihe paaie ip route output key(struct rtable **rp, const struct flowi *flp) 
22 A 
Sio unsigned hash; 
4. St altem st 
为 flp 找到 相应 的 hash 键 值 
D. hasi = wie mem Celie A Et es “ (aeljs--dgauas << 5), i&djo-cdrlba 1568) p 
S Soca 
rt hash table 是 一 个 全 局 变量 ， 根 据 hash 值 对 相应 链表 进行 遍历 
flee for (rth = rt hash table[hash].chain; rth; rth = rth->u.rt_next) { 
E TN 
95 if (rth->f1.f14 dst == flp-»f14 dst && 
10. TS Sei ied Tene. —— sell o—Sacll4! sige. Gs 
il rth->fl.iif == 0 && 
eZee rth->fl.oif == flp->oif && 
LS, !((rth->f1.f£14_tos ^ flp-»fl4 tos) &(IPTOS RT MASK | RTO ONLINK))) 
14. { 
如 果 找 到 了 相应 的 rt 表 项 ， 那 么 就 返回 
T53 rth->u.dst.lastuse = jiffies; 
1 
bg at ln Shi, Clie SE 
18 EU 
TOF *siepo) tl 
20 return 0; 
245 ) 
2/2 
D3 } 
dA ets 
如 果 没 有 找到 相应 表 项 ， 表 明 还 没有 为 该 流 找到 一 条 路 由 ， 于 是 ， 将 进行 路 由 解析 过 程 
20m @ return nom cnmseNMCmNSWESSw(rp, flp); 
26. ) 
代码 段 4-9 ip route output key 函数 
(D #44) rip route output. slow] fid: 
d. 6 
Des * 主要 的 路 由 解析 函数 ， 在 这 里 的 oldflp 是 从 xxx sendmsg 中 传递 过 来 的 值 ， 代 表 了 没有 找到 路 由 的 
3. * MA. 
Ab. in of 
5. static int ip_route_output_slow(struct rtable **rp, const struct flowi *oldflp) 
Qc. 4 
de SA cos = IRIE jab, "UOS (oleae 
先 把 老 的 flows 结构 复制 到 新 的 Elowi 结构 中 ， 并 且 ， 还 初始 化 入 接口 和 出 接口 ， 注 意 ， 入 接口 
在 此 还 是 loopback 接口 ， 在 上 只 有 一 个 接口 的 情况 下 ， 它 等 于 2， 而 老 flowi 结构 中 的 oif 也 许 只 是 0 
Be 
9 Struct Erow sll = qp cil wy = 4 giljo4) gu = 
T { »Glewlele = @uileheljo=Sic 4 cls, 
qup .saddr = oldflp-»f14 src, 
TE .tos = tos & IPTOS RT MASK, 
如 果 设 置 了 MsG_DONTROUTE， 那 么 tos=RTO_ONLINK， 于 是 scope—SCOPE LINK 
T .Scope = ((tos & RTO ONLINK) ? 
14. BI SCOPE LINK 
15 RT SCOPE UNIVERSE), 
lOe ) bg 
TONO .iif = loopback dev.ifindex, 
Lea Monte = olci lo- Oir Pp 
OF struct fib_result res; 
20 unsigned flags = 0; 
alee struct net_device *dev_out = NULL; 
22 c int free res - 0; 
23 int err; 
24 
25 res.fi = NULL; 
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DIOC 
21 c 
BS 
29). 
SOF 


Slc 
327 
S3 
34. 
ED 
36. 
S 


38. 


3) ¢ 
40. 
"be 
62 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
Si) c 
SL c 
5/2 c 
53. 
54. 
Si c 
IO 
5 c 
ORE 
59) < 
60. 
oir 
62. 
63. 
64. 
65. 
66. 
67. 
68. 
(58) 
70. 
WAL. 
ieee 
US 
74. 
JS 
JG 
EE 
78. 
Tor 
80. 
GE 
82. 
coe 
84. 
85. 
86. 
gu 
88. 
32) 
99. 
on 


#ifdef CONFIG IP MULTIPLE TABLES 
res.r = NULL; 
#endif 


if (oldflp-»fl4 src) { 
如 果 流 标识 中 有 源 地 址 ， 那 么 就 先 查 找到 与 源 地 址 对 应 的 地 址 
err = -EINVAL; 
if (MULTICAST (oldflp->f14_src) || 
BADCLASS(oldflp-»f14 src) | | 
ZERONET (oldflp-»f14 src)) 
Goro Outs 




















/* It is equivalent to inet_addr_type(saddr) = 
此 函数 内 部 也 调用 了 fib 查找 
( dev. out = ip dev find(oldflp-»f14 src); 


if (dev out == NULL) 
Gove outs 














/* I removed check for oif == dev out-»oif here. 
It was wrong for two reasons: 


RTN LOCAL */ 


1. ip dev find(saddr) can return wrong iface, if saddr is 


assigned to multiple interfaces. 


2. Moreover, we are allowed to send packets with saddr 


of another iface. --ANK 


SY 


if (oldflp->oif == 


&& (MULTICAST (oldflp->fl4_dst) || oldflp->fl4_dst == OxFFFFFFFF)) 


/* Special hack: user can direct multicasts 


and limited broadcast via necessary interface 
without fiddling with IP_MULTICAST_IF or IP_PKTINFO. 


Phase hack lis NOE JUSt hom erin Te ows 
vic,vat and friends to work. 





and expect that it will work. 


They bind socket to loopback, set ttl to zero 





From the viewpoint of routing cache they ar 


because we are not allowed to build multicast path 
with loopback source addr (look, routing cache 


broken, 


cannot know, that ttl is zero, so that packet 
will not leave this host and route is valid). 


Luckily, this hack is good workaround. 


uf 


fl.oif = dev out-»^ifindex; 
goto make route; 


} 


dev_out = NULL; 
} 


aie («edebat di 
dev out = dev get by index(oldflp-»0oif); 
err = -ENODEV; 
if (dev out == NULL) 
goto Cut; 








/* RACE: Check return value of inet select addr instead. */ 
if ( in dev get rtnl(dev out) == NULL) { 
Gio) (ot = home error Coce =y 
} 
if (LOCAL MCAST(oldflp-»fl4 dst) || oldflp->fl4_dst == OxFFFFFFFF) 


abse (Weal parila ese) 
fl.fl14 src = inet_select_addr (dev_out, 
ISSUES COE Himesh siNike) ys 
goto make_route; 





} 
abe (Wied 5 eka! qwe) d 


0, 
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这 里 ; 


} 


Eois 








if (MULTICAST (oldflp->f14_dst) ) 
如 果 目 的 地 址 组 播 地 址 ， 走 此 处 ， 但 我 们 不 关心 . . .... 



































(Et 
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当 目 的 地 址 是 0 的 话 ， 那 么 有 必要 为 源 和 目的 地 址 填 上 环 回 地 址 ， 并 且 接 


























也 是 环 回 接口 





ie a ost = Ae Pea cores 
aie (sed etl dole) 
fl.fl4 dst = fl.fl4 src = htonl (INADDR_LOOPBACK) ; 





dev_out = &loopback_dev; 


fl.oif = loopback_dev.ifindex; 
res.type = RIN_LOCAL; 

flags |= RTCF_LOCAL; 

goto make_route; 















































行路 由 表 查 询 。 注 意 ， 所 谓 的 fib_llokup 就 是 查找 路 由 表 














@if (fib lookup(&fl, &res)) { 


} 


























如 果 没 有 在 FIB 表 中 找到 相应 路 由 ， 那 么 进入 这 个 分 支 














res.fi = NULL; 
eo Loa On 
如 果 为 报 文 指定 了 输出 接口 ， 
/* Apparently, routing tables are wrong. Assume, 
that the destination is on link. 

















WHY? DW. 

Because we are allowed to send to iface 
even if it has NO routes and NO assigned 
addresses. When oif is specified, routing 
tables are looked up with only one purpose: 


to catch if destination is gatewayed, rather than 


direct. Moreover, if MSG DONTROUTE is set, 
we send packet, ignoring both routing tables 
and ifaddr state. --ANK 


We could make it even if oif is unknown, 
likely IPv6, but we do not. 
A 


alie (Geil alle Sie == (0) 
fl.fl4 src = inet select addr(dev out, 0, 
RT SCOPE LINK); 
res.type = RTN UNICAST; 
goto make route; 


err = -ENETUNREACH; 
goto Gut. 





free res - 1; 


nf 


(res.type == RTN LOCAL) { 


















































此 报 文 的 目的 地 是 本 机 ， 那 么 将 使 用 loopback 设备 作为 发 送 载体 ， 而 不 是 用 实际 设备 


} 


sige (Card Gell ESTE) 
EA eo. Ec As 





dev_out = &loopback_dev; 
fl.oif = dev_out->ifindex; 
res.fi = NULL; 


flags |= RTCF_LOCAL; 
goto make_route; 


#ifdef CONFIG_IP_ROUTE_MULTIPATH 
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LS 7 wae (GSS), ak Sealey sonst S dL Me iil esi S= (9) 
155 fib select multipath(&fl, &res); 
11559) else 
160 #endif 
161 if (!res.prefixlen && res.type == RIN_UNICAST && !fl.oif) 
162 (2 fib select default (sfl, &res); 
为 本 报 文 流 设置 源 地 址 ， 这 个 值 将 会 赋 给 oldflp-£f14 src (在 退出 此 函数 以 后 ) 
163 (lS ee) 
164 (5 £1.f14 src = FIB RES PREFSRC (res); 
找到 了 发 送 接口 以 及 接口 索引 
1525 dev out - FIB RES DEV(res); 
166 fl.oif = dev out-»ifindex; 
167 
在 这 里 将 fib 查找 的 结果 放 入 路 由 cache 中 。 不 要 被 make_route 这 样 的 标签 迷惑 了 。 
168 make_route: 
169 © err = ip mkroute output (rp, &res, &fl, oldflp, dev out, flags); 
LWA 
LIL if (free_res) 
l72 fib res put(é&res); 
173 Suit return err; 
174 } 
代码 段 4-10 ip route output slow 函数 
~> fib. inf: 
fib. result TE fib. info 
fib info* fib next e > fib_info* fib_next e > 
RE ] fib info* fib prev «——————e fib info* fib prev «———— 
fib. info "fi 























L—— ——M»- fib nh 














fib nh fib nh[0] 





net device *nh_dev 


























图 表 4-bfib result. fib info. fib nh 的 关系 



































Q @) 先 看 第 一 次 查找 ip_dev_find， 它 比较 简单 ， 只 是 调用 ip_fib local table > tb lookup 











(ip. fib local table, &fl, &res); 它 和 之 后 要 研究 的 fib_lookup 函数 类 似 ， 只 是 不 


ip_fib_main_table: 


查找 











1 
2. Ñ 
3 
4. 
5 
6 
7 


} 


SCHELSE amilsine aie iio _ loos (cime ferie. al wa 


if (ip_fib_local_table->tb_lookup(ip_fib_local_table, flp, res) && 
ip_fib_main_table->tb_lookup(ip_fib_main_table, flp, res)) 
return -ENETUNREACH; 

return 0; 


struct fib result *res) 


























Fib lookup 是 FIB 中 做 路 由 搜索 的 主要 的 前 端 函数 。 首 先 调用 local 表 的 查找 函数 ， 然 后 再 调 


用 本 地 网 的 查找 函数 ， 如 果 没 有 找到 就 返回 ENETUNREACH， 要 注意 的 是 2 个 表 都 必须 查 





5 









































Eb 么 我 们 在 此 要 说 关于 fib rules 的 一 些 事 情 。 可 以 看 到 在 这 个 版 本 的 Linux A 4% 4 








B. 
似乎 

















fib rules 没有 起 作用 了 ， 怎 么 回 事 ? 在 Linux2.6.14 中 是 这 么 定义 的 : 


但 是 在 2.6.18 中 已 经 不 是 了 ， 在 配置 内 核 编译 选项 的 时 候 如 果 没 有 配置 policy_routing， H 


static struct fib_rule *fib_rules = &local_rule; 
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CONFIG_IP_MULTIPLE_TABLES 选项 就 不 会 定义 ， 于 是 fib_rules 等 于 NULL， 其 相应 的 























初始 化 


函数 没有 包含 在 内 核 中 ,在 整个 协议 栈 中 不 起 作用 。 而 原先 版 本 中 fib, lookup 函数 只 有 一 个 定义 ， 

















现在 变 成 2 个 ， 在 定义 了 CONFIG IP MULTIPLE TABLES 时 ， 就 会 调用 如 下 的 代码 : 








1 ini EI ookp(Gconste stc etel Owls cll orsi Erbe suili e es) 
2 { 

S aliae err; 

4. SEMUGE rally Teele Oe 

5e struct fib_table *tb; 

6 struct hlist_node *node; 

p 

8 


; u32 daddr 
Sio u32 saddr 


flp->f14_dst; 


































































































= ilps 14! ep 
mos 
121 hlist for each entry rcu(r, node, &fib rules, hlist) { 
12 if (((saddr^r-»r src) & r-»r srcmask) | | 
13. ((daddr^r-»r dst) & r-»r dstmask) || 
14. (r-»r tos && r-»r tos != flp-»f14 tos) || 
153 人 GE 
i - continue; 
ANS fe main rule “Æ local rule, He action 必定 是 RTN_UNICAST 
T switch (r-»r action) { 
JR case RTN UNICAST: 
LY). policy = r; 
220 5 break; 
Dale case RTN_UNREACHABLE: 
22 return -ENETUNREACH; 
23. default: 
24. case RTN_BLACKHOLE: 
29 return -EINVAL; 
AG case RTN PROHIBIT: 
Zales return -EACCES; 
28 ) 
在 没有 加 入 新 的 路 由 规则 时 ， 获 取 的 tbl 只 能 是 2 个 : ip fib local table flip fib main table 
2 oy if ((tb = fib get table(r-»r table)) == NULL) 
305 continue; 
在 这 里 就 和 上 面 的 £ib_lookup 的 实现 有 点 象 了 
dde err = tb-»tb lookup(tb, flp, res); 
326 aerem 0) 
33A res->r = policy; 
34. return 0; 
357 } 
367 } 
doe return -ENETUNREACH; 
SIRE) 





代码 段 4-11 fib lookup 函数 

































































































































































































































































为 什么 会 变化 ， 我 想 可 能 有 2 方面 原因 : 第 一 ， 代 码 更 清晰 了 ， 如 果 没 有 配置 策略 路 由 ， 开 
发 人 员 不 必 再 关心 fib_rules 了 ， 直 接 处 理 的 就 main 和 local de; 第 二 ， 从 性 能 上 稍微 有 提高 ， 因 
为 对 于 普通 的 主机 ， 一 般 不 会 去 配置 外 部 路 由 协议 ， 也 就 不 会 往 fib rules 加 rules 了 ,于 是 查找 的 
时 候 直接 操作 local 和 main 表 ， 省 去 了 遍历 fib rules 链表 的 过 程 。 

我 们 会 在 hn_hash_lookup 函数 中 看 到 查找 正确 路 由 的 3 步 曲 , 这 也 是 普通 hash 表 查 找 过 程 的 
3 部 曲 ， 我 已 分 别 用 序号 列 出 : 

I Stat CENE 

2. fn_hash_lookup(struct fib table *tb, const struct flowi *flp, struct fib result 
*res) 

SE al 

4. int err; 

5. Serce /cn yA AEZ 

6 . struct fn hash *t = (struct fn hash*)tb-»tb data; 
在 介绍 fn_hashf{} 的 时 候 曾 经 给 读者 买 过 一 个 关子 ，fn_zone_1list 在 这 里 派 上 用 场 了 : 从 掩 码 最 长 的 
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zone 开始 查找 ， 也 就 是 从 最 精确 的 路 由 zone 中 查找 到 最 匹配 的 路 由 。 



























































We for (fz = t-> oe; fz; fz = fz—->fz_next) 
8 { 7 
9. Sect onl tae ead ded Pa AE fz) 
KOS struct hlist_node *node; . 
11. eE L el ke ; return dst & FZ MASK(fz); 
形成 查找 fib node()HJ key 
23 @u32 ie ex 3874 Men (Gedo saci else, Ep) M 
用 key 形成 对 应 nash 数组 的 单元 
l3. @ head = &frz--fz hash [in hash (k, £2) |]; 
遍历 fib node { } HEK 
14. @hlist_for_each_entry (f, node, hé@ad, fn hash) { 
Sys Efn key EK) 
16. continue; u32 fn hash(u32 key, struct fn zone 
当 找 到 同样 key 的 节点 ， 用 输入 的 参数 填 满 res  [*fz) 
E err = fib semantic match(&f-»fn alit 
18. jE, reS, u32 h = ntohl (key)>> (32 - 
T9 f->fn_key, fz->fz_mask, fz->fz_order); 
207 fz-cfr order); h *= (h>>20); 
2E if (err «- O0) h ^= (h>>10); 
22€ goto out; h ^= (h>>5); 
OAS) 6 } h &= FZ_HASHMASK (fz); 
24. } return h; 
25 err = 1; 
26 out 
27 
2 c return err; 
29. | 





代码 段 4-12 fn hash lookup 函数 





























对 于 路 由 表 的 操作 ,物理 操作 是 直观 的 和 易于 理解 的 。 对 于 表 的 操作 不 外 平 就 是 添加 、 删 除 、 
更 新 等 的 操作 。 还 有 一 种 操作 ， 是 所 谓 的 语义 操作 ， 语 义 操作 主要 是 指 诸如 计算 下 一 条 的 地 址 ， 
把 节点 转换 为 路 由 项 ， 寻 找 指定 信息 的 路 由 等 。 它 并 不 涉及 路 由 表 整 体 框架 的 理解 ， 而 且 ， 函 数 
也 是 不 言 自明 的 。 






















































































































































































p 
l int fib semantic match(struct list head *head, const struct flowi *flp, 
2s struct fib result *res, u32 zone, | u32 mask, 
3 int prefixlen) 
4 { 
m struct fib alias *fa; 
6 int nh sel = 0; 
遍历 fib_alias{} WR 
coe list_for_each_entry_rcu(fa, head, fa_list) { 
on shims eieies 
oF 
TD Le (fa-—Sia tos && 
TUR fa dm oO SM MEE c TEES) 
1 continue; 
3}. 
14. if (fa->fa_scope « flp->f14_scope) 
T5. continue; 
KGS 
17. fa-»fa state |= FA S ACCESSED; 
前 面 已 经 说 过 了 RT TYPE 和 RTN. SCOPE 之 间 的 关系 了 
dx err = fib props[fa-»5fa typel.error; 
ROR wE (err == 0) H 
只 有 合适 的 scope 才能 进入 
2) c eae iril)o) aljgur() wiesl = El Ny 
在 缺 省 情况 下 flag 永远 不 会 是 DEAD 状态 ， 所 以 只 会 继续 往 下 走 
25 Iie (Gar Oe Se RN HEED EAD) 
22» continue; 
23 
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24. switch (fa->fa_type) { 
RS case RTN_UNICAST: 
26. case RTN_LOCAL: 
Oils case RTN BROADCAST: 
28. case RTN ANYCAST: 
297 case RTN_MULTICAST: 
查找 吓 一 跳 接口 ， 缺 省 情况 只 循环 一 次 
305 for nexthops(fi) { 
ade if (nh-»nh flags&RTNH F DEAD) 
32 c continue; 
335 if (!flp->oif || flp->oif == nh->nh_oif) 
34. break; 
S } 
缺 省 情况 下 ，nhsel 肯定 小 于 1， 而 其 我 们 已 经 获得 下 一 跳 信 息 ， 所 以 跳出 去 。 
SG if (nhsel < 1) { 
Sas GOES owe JraLILIL eeg 
SIRE } 
QU. endfor nexthops (fi); 
40. continue; 
41. 
42. default: 
43. printk (KERN_DEBUG "impossible 102\n"); 
44, return -EINVAL; 
457 jes 
46. } 
47. return err; 
48. ) 
49. return 1; 
505 
GALS out fiii res: 
SAC res-»prefixlen - prefixlen; 
DO. res-»nh sel - nh sel; 
54v res-»type = fa-»fa type; 
SD res-»scope = fa->fa_scope; 
从 FIB 中 获取 最 重要 的 下 一 跳 接口 信息 ， 要 记 住 往 路 由 cache 中 写 下 一 跳 信 息 就 是 通过 这 一 次 赋值 
56s res->fi = fa->fa_info; 
Bt. 
Oe. return 0; 
S9. } 
代码 段 4-13 fib semantic match 函数 
ip_route_output_slow K Zt (5) FIB_RES_PREFSRC 看 起 来 其 貌 不 扬 ， 但 是 它 要 完成 一 件 比 较 
重要 的 事 ， 而 且 要 和 我 们 之 前 讨论 配置 的 时 候 联系 起 来 。 其 宏 定义 如 下 : 
#define FIB RES PREFSRC(res) ((res).fi-»fib prefsrc ? : X fib res prefsrc(&res)) 























S. 
NS 


注 
果 a 不 等 于 0， RA b—a; 如 果 a 等 于 0， MAFF 10. 


类 似 于 b = a?:10; 这 样 的 宏 在 VC6 中 编译 不 过 ， 而 在 GCC 中 可 以 编译 成 功 ， 其 含义 表示 如 




















那么 在 我 们 前 面 给 接口 配置 
NULL， 所 以 fl.f14_src 二 fib_prefsrc， 即 接 











的 本 地 地 址 。 














. fib res prefsrc 

















IP 地 址 的 时 候 ，fib_prefsrc 等 于 ifa-»ifa local, 3X 





H, 
Fe 














肯定 不 等 





直接 调 inet select addr (FIB_RES_DEV(*res), FIB RES GW(*res), res -> 











scope); 

1 u32 inet_select_addr(const struct net_device *dev, u32 dst, int scope) 
2 { 

3 u32 addr = 0; 

4. struct in device *in dev; 

is 

6 in dev = in dev get rcu(dev); 

7 

8 for_primary_ifa(in_dev) { 
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if (ifa->ifa_scope > scope) 


continue; 
if (!dst || inet_ifa_match(dst, ifa)) { 
gielelia = auice—Salire: ieee 
break; 
} 
AE eri) 
addr = site Sabicea, ikeyeeiils 


} endfor ifa(in dev); 


. no in dev: 


if (addr) 
goto out; 


/* Not loopback addresses on loopback should be preferred 
in this case. lo 设备 是 dev_base 链表 的 第 一 个 接口 ， 这 点 很 重要 

















ory) 
for (dev = dev base; dev; dev = dev-»next) { 
if ((in_dev = in dev get rcu(dev)) == NULL) 
continue; 


for primary ifa(in dev) { 


if (ifa-»ifa scope !- RT SCOPE LINK && 
ifa-»ifa scope <= scope) { 
addr = ifa->ifa_local; 


goto out unlock both; 
} 
} endfor ifa(in dev); 


} 
out_unlock_both: 


Sy Oen 


return addr; 





代码 段 4-14 inet select addr 


452 ” 当 目 的 地 址 是 远 端 主机 时 








MH 
"71 
| 


ip route output slowPAZE 旨 ， 继 续 往 下 走 ， 当 我 们 ping 的 地 址 不 是 127.0.0.1 或 本 地 地 址 ， 而 











是 远 端 主机 时 ， 那 么 下 面 这 个 函数 相当 重用 ， 不 过 建议 读者 先 跨 过 这 一 节 ， 先 看 看 邻居 系统 是 如 
何 工作 的 。 当 我 们 对 ping 127.0.0.1 或 ping 本 地 地 址 的 流程 熟悉 以 后 ， 可 以 再 回 到 这 一 节 。 






























































1. static inline void fib select default(const struct flowi *flp, struct fib result 
*res) 

as di 

UN if (FIB RES GW(*res) && FIB RES NH(*res).nh scope -- RT SCOPE LINK) 

4. ip fib main table-»tb select default(ip fib main table, flp, res); 

SD 

CAA EX 4-15 fib select default 函数 

6. static void 

7. fn hash select default(struct fib table *tb, const struct flowi *flp, struct 
fib result *res) 

So 1 

on cline OM le nS siebr<p 

ROR struct hlist_node *node; 

Loves Srruct fos node *£: 

WA 3 SE UGE eyo abiere) seal = NULG 

> Eee be SEES IER EE ONES T rS tC NE e SGH 

14. struct fn hash *t = (struct fn hash*)tb-»tb data; 
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TSn struct fn zone *fz = t->fn_zones[0]; 
16. 
The if (fz == NULL) 
1L s return; 
19. 
20 laste tds = —1; 
epe last resort = NULL; 
Zoe order = -1; 
23 
24 hlist for each entry(f, node, &fz->fz_hash[0], fn_hash) { 
25 struct fib_alias *fa; 
26 
oh list for each entry(fa, &f-»fn alias, fa list) { 
28 Situet slop MES, Tug eer fo mmo 
BS). 
SOR if (fa->fa_scope != res-»scope | | 
i fa-»fa type != RIN UNICAST) 
SAT continue; 
Sic 
34. aig (MERRIE GES Pil) SUOMI 27 a) _jOw WOW) 
S97 break; 
36. if (!next_fi->fib_nh[0].nh_gw | | 
Sy next_fi->fib_nh[0].nh_scope != RT_SCOPE_LINK) 
Soy continue; 
39. fa-»fa state |= FA S ACCESSED; 
40. 
41. if (fi == NULL) { 
42. if (next fi != res-»fi) 
43. break; 
44, } else if (!fib detect death(fi, order, &last resort, 
qu. &last idx, &fn hash last dflt)) { 
46. res->fi = fi; 
475 
48. fn hash last dflt = order; 
49, Goto ots 
50) } 
Dl 全 
Du S ordert++; 
535 } 
54. } 
Di 
56. af (ordes <= © || #2 == apa) | 
57 fn_hash_last_dflt = -1; 
5E. Got ON OU 
$9. ) 
60. 
CE. if(!fib detect death(fi, order, &last resort,&last idx,&fn hash last dflt)) 
O28 { 
63). res->fi = fi; 
64. fn hash last dflt - order; 
65. goto out; 
66. } 
Gi. 
68. aie (Ulasie ache S= 0) 1 
69. res->fi = last resort; 
FO. } 
pes fn hash last dFrlt = last 1idx; 
V2. Ones 
33) 
代码 段 4-16 fn hash select default 函数 

4.5.3 创建 对 应 路 由 cache 表 项 

(9Oip_mkroute_output 函 数 又 直接 调用 ip_mkroute_output_def: 
1. static inline int ip_mkroute_output_def (struct rtable **rp, 
2 struct fib result* res, 
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3 COME jzaewwenE icllhowyal wsell, 
4. GOMSE Gurwer EOW TES eco 
5T struct net_device *dev_out, 
6. unsigned flags) 
The di 
OP seruct rtable Meet; he = NUCE; 
oR int err = | mkroute output(&rth, res, fl, oldflp, dev out, flags); 
mon unsigned hash; 
wS if (err == 0) { 
que hash = rt hash code(oldflp-»f14 dst, 
T3% Geko rmi sue. (ole Oe << 5))p 
14. err = rt_intern_hash(hash, rth, rp); 
LS). } 
LE 
ess return err; 
Je y 
代码 段 4-17 ip mkroute output def 函数 

. mkroute output 是 一 个 很 重要 的 函数 ， 它 指定 输出 的 函数 一 一 ip_output。 
1. static inline int _ mkroute output (struct rtable **result, 
2 struct fib result* res, 
Se CONSETES DEUCE V 
4. SOnst ost cte lowi SOLENS; 
Dr struct net_device *dev_out, 
Ga unsigned flags) 
To al 
8. Sle LC talc th 
9a struct in device *in dev; 
ROR u32 tos = RT FL TOS (oldflp); 
ial ine (sere —* 01g 
12.5 
SS if (LOOPBACK (f1l->f14_src) && !(dev out-»flags&IFF LOOPBACK)) 
14. return -EINVAL; 
ILS) 
lE if (f1->f14_dst == OxFFFFFFFF) 
17. res-»type = RIN_ BROADCAST; 
its} else if (MULTICAST (f1->f£14_dst) ) 
19. res-»type = RTN_MULTICAST; 


WWNHNNNNNNNDN NH 
FPOWOMDAAIAAHBWNHE O 


w w 
w N 


WWWW CO CO 
«000-1001 4 


A 心 心 心 
GINS) SEG) 


A 心 bd 
Oops 


A 
- 





a 
else if (BADCLASS(fl-»f14 dst) || ZERONET(f1-»£f14 dst)) 
return -EINVAL; 














if (dev out-»5flags & IFF LOOPBACK) 
flags |= RICF. LOCAL; 


/* get work reference to inet device */ 


in dev = in dev get (dev out); 
if (res-»type == RTN BROADCAST) { 
flags |= RTCF BROADCAST | RTCF LOCAL; 


(eS M 
res-»fi = NULL; 
} 
) else if (res->type == RTN MULTICAST) { 
flags |= RTCF_MULTICAST|RTCF_LOCAL; 
dae (i aijs)_Clayexeli< ine (atin. xoleni7, Ecl ret I cisterna ss um 
oldflp-»proto)) 
flags &= -RTCF LOCAL; 
yee Co molt Exist WSS 
default one, but do not gateway in this case. 
Yes, it is hack. 
ey 
if (res->fi && res-»prefixlen < 4) ( 
res-»fi = NULL; 





} 


创建 一 个 rtable{} 结 构 ， 并 且 初 始 化 
rth = dst alloc(&ipv4 dst ops); 
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48 . 
49. nen sunds creer IDs deo SP 
50) - alse (almi Ov SE c ioo). scie sein) 
51 rth-»u.dst.flags |= DST NOXFRM; 
527 if (in_dev->cnf.no_policy) 
53. rth-»u.dst.flags |= DST NOPOLICY; 
54. 
557 acas Sl eile Clete = Goel olee 
obs PENSE pela tos- Los: 
mg meine ILA See ode ea o> hee p 
BS Ia el Os WLChe SO 
59, ele ee (Qe = seil—sicil4!_ (elenEB 
60. rbu-»rtosro- fl-ori4 sro: 
61. Elsa ba = (ebrio 9 dev out-»ifindex; 
62€ /* get references to the devices that are to be hold by the routing 
$3 cache entry */ 
64. rth->u.dst.dev = dev out; 
65. 
66. rth->idev = in_dev_get (dev_out) ; 
Gi. rth->rt_gateway = fl->f14_dst; 
68. MEM= Sie (qe E EJ vA qp 
69. 
noS eh >Use Ee ou Ome SWISH 
Vive 
Tes RI CCACHE-STAT. INC (out os low tot) 
WR type 是 RTN_LOCAL， 那 么 设置 目的 cache 的 input FRX ip local deliver, 于 是 此 包 
发 给 传输 层 协议 的 。 而 且 ， 如 果 该 路 由 的 路 由 表 项 被 设置 为 RTCE. LOCAL 标志 ， 那 么 我 们 知道 这 个 包 
- 定 是 本 地 路 由 。 
737 if (flags & RTCF_LOCAL) { 
TAR rth-»u.dst.input = ip local deliver; 
d mb. ESI SIME Ms Isis 
VS. } 
las if (flags & (RTCF_BROADCAST | isum VN TAS et 
d. WEIN= Sie qq. Clie S IJ A Bue 
UD. if (flags & RTCF_LOCAL && 
80. ! (dev_out->flags & IFF_LOOPBACK)) { 
Sq eh ut onPuee = ajo inve:_feybhejoste P 
82: RT CACHE STAT INC(out slow mc); 
83. } 
84. } 
Svs 
86. rt_set_nexthop(rth, res, 0); 
Silas 
88. rth->rt_flags = flags; 
Sie 
0 - *result = rth; 
DIL, cleanup: 
92% 
937 return err; 
94. } 
代码 段 4-18 _mkroute_output 函数 
当 rtable 结构 被 创建 之 后 , 它 应 该 被 放 入 全 局 链表 中 了 , 现在 我 们 回 过 头 再 看 看 rt_intern_hash: 
1. static int rt_intern_hash(unsigned hash, struct rtable *rt, struct rtable **rp) 
Zoe ee 
3 struct rtable SEE, Swine 
4. unsigned long now; 
57 struct rtable *cand, **candp; 
6 u32 min, score; 
EE int chain, length; 
dum int attempts - !in softirq(); 
om 
10. restart: 
E chain_length = 0; 
2 min_score = ~(u32)0; 
ish cand = NULL; 
14. candp = NULL; 
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ISe 


LG. 
Wc 
18. 
119. 
2. 
2 
2c 
BS c 
24. 
25. 
2. 
Z1 c 


DIOE 
28) 
30. 
Sh c 
Sc 
Ser 
34. 
S9 
36. 
Sie 
Bick 
39. 
40. 
Zune 
42. 
43. 
44. 
45. 
46. 
aT e 
48. 
49. 
50. 
81. c 
5/2 c 
S3. 
54. 
S3 
56. 
ic 
SS 
59). 
60. 
ONE 
62. 
63. 
64. 
65. 
66. 
UE 
68. 
69. 
3) - 
TL 
UB 
WS. 
74. 
dS c 
JG c 
33 
TS e 
I 
80. 


now = jiffies; 
这 就 是 我 们 开始 介绍 的 路 由 表 cache 的 全 局 变量 
rthp = &rt hash table[hash].chain; 






































while ((rth = *rthp) != NULL) { 
#ifdef CONFIG IP ROUTE MULTIPATH CACHED 
if (!(rth-»u.dst.flags & DST BALANCED) && 

compare keys(&rth-»5fl, &rt-»5f1)) { 
#else 

if (compare_keys(&rth->fl, &rt->f1l)) { 
#endif 

/* 获得 第 一 个 节点 */ 



























































进行 保护 
rcu assign pointer(rth-»u.rt next, 
rt hash table[hash].chain); 


rcu assign pointer(rt hash table[hash].chain, rth); 
rth-»u.dst.  use-ct; 
rth-»u.dst.lastuse = now; 


iE Ole (a) P 
wil e ael 
return 0; 


} 


if- (Latomiocoread(&rth--u.dst.. refent)) { 
u32 score = rt_score(rth); 


if (score <= min_score) { 
(Geumol e seh 
candp = rthp; 
min_score = score; 
} 
} 
chain_length++; 
rthp = &rth-»u.rt next; 


if (cand) { 
/* ip_rt_gc_elasticity used to be average length of chain 
* length, when exceeded gc becomes really aggressive. 


* The second limit is less certain. At the moment it allows 
* only 2 entries per bucket. We will see. 
5 
aie (laaislien WS S ss se (eje edast el 
*candp = cand-»u.rt next; 
rt_free (cand) ; 


} 






















































































* 尝试 把 路 由 绑 定 到 arp 上 ， 这 只 有 在 此 路 由 是 出 口 路 由 或 者 是 单 播 转发 路 径 时 才能 这 样 处 理 
2 
if (rt-»rt type == RTN_UNICAST || rt->fl.iif == 0) { 
int err = arp bind neighbour (&rt-»u.dst); 
ag (owes) 3 
return -ENOBUFS; 
} 
} 
rt-»u.rt next = rt hash table[hash].chain; 


rt hash table[hash].chain = rt; 





于 查找 没有 上 锁 ， 这 个 删除 动作 必须 对 在 插入 到 hash 链表 头 的 操作 可 见 ， 所 以 采 ) 








Lie 5 Bi 
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plies le = i268 
82. return 0; 
ISe } 





代码 段 4-19 rt intern hash 函数 


好 了 ， 到 了 总 结 一 番 的 时 候 了 : 

1) Linux 内 核 没 有 名 字 叫 做 路 由 表 /route table 的 表 ， 不 要 被 rtable 迷惑 了 ， 它 不 是 存放 真正 路 
的 地 方 ， 它 是 cache. FIB 表 才 是 值得 叫做 路 由 表 的 东西 。 

2) HB 存放 所 有 的 路 由 信息 ， 只 有 当 要 发 送 报 文 的 时 候 〈 也 许 在 接受 报 文 的 时 候 也 是 这 样 的 ) 
才 将 已 经 查 过 的 路 由 信息 放 入 route cache T, 在 没有 进行 数据 通信 之 前 , cache 中 是 没有 数据 
的 。 那 么 结合 _ ip_route_output_key 的 思路 可 以 得 出 下 面 的 逻辑 : 



































































































































ip_route_output flow 


返回 成 功 





在 
ip_route_output_key 


完成 整个 操作 














在 = . mkroute output 
ip route output slow 创建 -条 e 
画 数 中 完成 路 由 cache 














元 


在 
ip_mkroute_output 
完成 


rt_intern_hash 
«—— 








插入 到 
rt_hash_table 中 











图 表 4-6 ip route output key 内 部 逻辑 和 FIB、 路 由 cache 之 间 的 关系 

















路 由 查询 结果 还 不 能 直接 供 发 送 耻 数据 报 使 用 ， 接 下 来 ， 还 必须 根据 这 个 查询 结果 生成 一 个 
目的 入 口 (dst_entry)， 根 据 目的 入 口才 可 以 发 送 耻 数据 报 ， 目 的 入 口 用 结构 体 struct dst. entry 
表示 ， 在 实际 使 用 时 ， 还 在 它 的 外 面包 装 了 一 层 ， 形 成 一 个 结构 体 struct rtable. 

在 研究 rt_intern_hash 函 数 时 发 现 ， 在 把 新 路 由 放 在 链表 之 前 ， 我 们 要 调用 arp_bind_neighbour 
使 之 能 够 绑 定 到 一 个 邻居 cache。 这 是 什么 意思 呢 ? 


45.4 创建 对 应 邻居 表 项 
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int arp_bind_neighbour (struct dst_entry *dst) 










































































































































































les 
2 NT 
oh struct net device *dev = dst-»dev; 
4. struct neighbour *n = dst-»neighbour; 
Be 
Gy if (dev == NULL) 
A return -EINVAL; 
ON if (n == NULL) { 
dx u32 nexthop = ((struct rtable*)dst)-»rt gateway; 
如 果 是 环 回 设备 或 点 到 点 设备 接口 ， 下 一 跳 是 0 
159). if (dev-»flags& (IFF. LOOPBACK | TER POINTORBOLINTI) 
ial = nexthop = 0; 
我 们 把 下 一 跳 地 址 作为 创建 邻居 的 key 值 
ee n = __neigh_lookup_errno(&arp_tbl, &nexthop, dev); 
3} 
14. dst-»neighbour = n; 
TESE } 
Lles return 0; 
i7. } 
代码 段 4-20arp bind neighbour 函数 
. neigh lookup errno 
neighbour *n — neigh lookup 
YES NO 
neigh create 返回 n 
图 表 4-7__neigh_lookup_errno 内 部 逻辑 图 

在 这 里 neigh_lookup 很 简单 ,只 是 在 arp_tbl 中 查找 相应 表现 , 查找 算法 依然 是 我 们 常见 的 hash 
算法 ， 我 们 就 不 用 在 多 说 了 。 我 们 重点 说 一 下 neigh_create 函数 : 
I, GUESSING ne (un nm wrol, Cems ne ev 
2. Sis cinere dece ew) 
St uw 
4. u32 hash val; 
DX int key len = tbl-»^key len; 
6. int error; 

4X 8/8 neighbour 结构 ， 而 且 还 挂 上 了 定时 器 ， 将 来 定期 会 执行 neigh timer handler. 

还 要 注意 neighbourDoutput 此 时 被 设置 为 neigh_blackhole， 即 当 还 没有 完全 初始 化 的 时 候 ， 所 有 

的 报 文 都 不 会 发 送出 去 ， 而 是 简单 的 将 报 文 释放 
ilies struct neighbour *n1, *rc, *n = WHEHSDNENMNES (tbl); 
BP 
oF memcpy (n->primary_key, pkey, key len); 
10 neigh 的 dev 指向 目前 的 设备 
IHES n-»dev = dev; 
T2: 
3}. 
14. /* 和 协议 相关 的 设置 */ 

调用 的 是 arp_constructor， 在 arp_tbl 中 定义 ， 下 面 我 们 会 介绍 
ISA if (tbl->constructor && (error = BED (n)) < 0) { 
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LG. 
EIs 
18. 
19 
20. 


2L c 
2 c 
Du 
24. 
25 
26. 
P 
28. 
29). 
31 - 
Sd c 
Ss 
S3c 
34. 
EE 
EIC 
Siig 
Scr 
SLE 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 


50. 
des 
52 c 
53 
54. 
55. 
EIE 
STe 
SIS 





ie) RA one 
goto out_neigh release; 


} 


/* Device specific setup. */ 

















这 个 parm 实际 是 in device 的 arp_parms， 在 上 面 的 constructor 中 指定 ， 但 是 在 以 太 网 的 情况 下 


neigh_setup 是 NULL 
if (n-»parms-»neigh setup && 
(error n-»parms-»neigh setup(n)) « O) ( 











n->confirmed = jiffies - (n-»parms-»base reachable time << 1); 


if (atomic read(&tbl-»entries) > (tbl-»hash mask + 1)) 
neigh hash grow(tbl, (tbl-»hash mask + 1) << 1); 


hash val = tbl->hash (pkey, dev) & tbl-»hash mask; 
if (n-»parms-»dead) { 


rc = ERR PTR(-EINVAL); 
GOES Owr Cok nk 





} 


for (nl = tbl-»hash buckets[hash val]; n1; nl = nl->next) { 
if (dev == nl->dev && !memcmp(nl-»primary key, pkey, key_len) ) 
{ 
oe! e ny 
goto out_tbl_unlock; 


n->next = tbl->hash_buckets[hash_val]; 
tbl-»hash buckets[hash val] = n; 
n->dead = 0; 





创建 了 一 个 邻居 ， 并 把 它 加 入 hash 桶 中 
Sco) 3 dele 

out: 
Swen TO? 
out tbl unlock: 




















out neigh release: 
neigh release (n); 
goto Out; 





H 


mun 





代码 段 4-21 neigh create 函数 






































大 家 不 要 误 以 为 neigh_alloc 只 是 一 个 简单 的 分 配 内 存 的 函数 ， 实 际 上 它 是 进行 后 续 研 究 的 最 























a 


的 纽带 ， 因 为 它 分 配 的 一 个 数据 结构 和 一 个 定时 器 回调 函数 决定 了 整个 2 层 系统 的 运作 ， 如 
果 不 知道 这 一 特点 ， 将 会 把 自己 迷失 在 繁杂 的 代码 从 林 中 。 















































static struct neighbour *neigh_alloc(struct neigh_table *tbl) 
{ 

struct neighbour *n = NULL; 

unsigned long now = jiffies; 

int entries; 


entries = atomic inc return(&tbl-»entries) - 1; 
if (entries >= tbl-»gc thresh3 | | 
(entries >= tbl->gc_thresh2 && 
time after(now, tbl->last_flush + 5 * HZ))) { 
if (!neigh forced gc(tbl) && 
entries >= tbl-»gc thresh3) 
goto out entries; 
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T5% 

10 n = kmem cache alloc(tbl-»5kmem cachep, SLAB ATOMIC); 

TS; 

18. memset (n, 0, tbl-»entry size); 
初始 化 arp 的 队列 ， 这 个 队列 是 专门 用 于 发 送 arp 报 文 的 

19 Skb queue head init(&n-»arp queue); 

20. 

2d. n-»updated = n-»used = now; 

2 n->nud_state = NUD_NONE; 

Ze n-»output = neigh blackhole; 

24. n->parms = neigh parms clone(&tbl-»parms); 

257 init_timer (&n->timer); 

267 n->timer.function = neigh_timer_handler; 

Dales n-»timer.data = (unsigned long)n; 
指向 arp tbl 

28. n-»tbl = iolp 

20% atomic set(&n-»refcnt, 1); 

ISP n-»dead Lx WEB 

Sil, EOU: 

327 return n; 

Bes 

34. out_entries: 

QoS atomic dec(&tbl-»entries); 

55 goto out; 

97/2. 2651 





代码 段 4-22 neigh alloc 函数 


现在 来 看 看 arp_constructor 函数 : 
































1. static int arp_constructor(struct neighbour *neigh) 
22 vat 
Ss u32 addr = *(u32*)neigh-»primary key; 
4. struct net device *dev = neigh-»dev; 
De struct in device *in dev; 
Gs struct neigh_parms *parms; 
TE 
8. neigh->type = inet_addr_type (addr); 
om 
T0- rcu read lock(); 
qq in dev - in dev get rcu(dev); 
= UAI static struct neigh ops arp direct ops 

i a { 
d perms F cc nu any = AF_INET, 
16. UIT ow us x j| output La dev. queue, xmit, 
17. Dd por MS C LO LI SD LIS '|.connected output -dev queue xmit, 

Y 2W|.hh output dev queue xmit 
18. if (dev-»hard header == NULL) { 2 A ee 

' - .queue xmit dev queue xmit, 
OR neigh->nud_state = NUD_NOARP;.-7 N 
neigh->ops = &arp direct ofs; : 
neigh-»output = neigh-»^»ops-»queue xmit; 
} else ( 


/* Good devices 不 仅仅 有 以 太 网 的 设备 
ARPHRD_ETHER: (ethernet, apfddi) 
ARPHRD_FDDI: (fddi) 
ARPHRD_IEEE802: (tr) 
ARPHRD_METRICOM: (strip) 
ARPHRD_ARCNET: 


等 等 ， 目 前 还 没有 实现 




















WWNHNNNNNN NN NH 
F^ 0:00 -1o001 4€ N H| o 











hU 
S2. abi d 
ES switch (dev->type) { 
34 default: static struct neigh_ops arp_hh_ops 
35 break; .family = AF_INET, 
36 5 E een etree -solicit = arp_solicit, 
37 } .output neigh resolve output, 
38. #endif .connected output -neigh resolve output, 
39. if (neigh->type == RTN MULTICAST) ( .hh output - dev queue xmit, 





.queue xmit - dev queue xmit, 
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40. neigh->nud_state = NUD NOARP; 
41. arp_mc_map(addr, neigh->ha, dev, 
mue ) else if (dev-»flags&(IFF. NOARP | IFF_ oo 到 aca ) { 
loopback 属于 NOARP 状态 ， E 
235 neigh-»nud state = NUD NOARP; Ki 
44. memcpy (neigh->ha, dev-2dev addr4 dev-»addr len); 
AG. ) else if (neigh->type == RIN BROADCAST || dev-»flags&IFF POINTOPOINT) { 
46. neigh-»nud state - NUD. NOARE/; 
4T. memcpy (neigh-»ha, dev- mci dev-»addr len); 
48. } 




















如 果 以 太 网 驱动 调用 ether setup stet net_device， 那 么 该 函数 指针 指向 
eth_header_cache， 所 以 ，ops 都 指向 了 arp hh. ops. 








49 . if (dev-»hard header cache) 
(0) - neigh->ops = &arp hh ops; 
5 else 
527 neigh->ops = &arp generic ops; 

实际 上 不 管 neigh 的 状态 ， 就 把 neighx>output 指 问 neigh resolve output 函数 
DO apf (neigh-»nud state&NUD VALID)*. 
54. neigh-»output = neigh-»ops-»c*tnnected output; 
55. else > 
I6 neigh->output = neigh->ops->outputy 
57. ) static struct neigh ops arp direct ops 
SIG return 0; { 
Soro .family = AF_INET, 

.Output = dev_queue_xmit, 

代码 段 4-23 arp constructor 函数 .connected output -dev queue xmit, 


.hh output - dev queue xmit, 


.queue xmit - dev queue xmit, 


hi 
这 里 看 到 两 个 特殊 的 函数 指针 ， 分 别 是 hard. header 和 hard_header_cache， 它 们 的 作用 是 什么 




















We? 见 下 文 : 
hard_header， 该 成 员 被 以 太 网 设备 驱动 程序 用 于 为 每 dp UE UE ES 
统 中 所 有 以 太 网 设备 驱动 程序 共享 一 个 函数 即 eth_header。 所 有 数据 报 在 传递 给 该 函数 之 前 ， 其 
skb 头 部 预 留 了 以 太 网 首部 的 空间 ，data 成 员 指向 网 络 层 首部 ，eth_header 将 data AD 以 太 网 
首部 ， 并 为 以 太 网 首部 填 入 目的 以 太 网 地 址 ， 源 以 太 网 地 址 和 网 络 层 协 议 类 型 (ETH P IP 或 
ETH_P_ARP), 该 函数 在 协议 栈 中 主要 有 两 处 被 用 到 , 一 是 ARP 模块 中 , 发 送 ARP 请 求 或 应 答 前 ， 
构建 以 太 网 首部 用 ; 男 一 处 是 在 IP 数据 发 送 过 程 中 ， Wm nh 
hard_header_cache， 用 于 创建 以 太 网 首部 的 高 速 缓冲, 每 一 个 邻居 节点 都 有 一 个 struct hh. cache 
*hh 成 员 ， 用 于 缓冲 该 邻居 节点 的 以 太 网 首部 ， us ， 以 后 再 向 这 个 邻居 发 数 IP 数据 的 
时 候 ， 不 必 再 调用 hard header 构建 以 太 网 首部 ， 而 是 直接 从 hh 中 拷贝 即 可 。 









































































































































































































































我 们 在 arp. constructor 函数 中 指定 了 三 个 全 局 变量 ， 分 别 定义 在 arp.c P, WÈ: 第 一 次 输出 
用 neigh reslove output 函数 ， 后 面 的 用 dev queue xmit pA 2%. Æ neighbour{} 结 构 中 有 一 个 
net_device{ } 结 构 变 量 ， 是 这 个 邻居 和 本 机 连接 起 来 的 网 络 接口 设备 指针 。 此 结构 中 的 output 函数 
指针 是 往 这 个 邻居 发 送 数 据 的 函数 ， 它 初始 化 为 和 该 邻居 相连 接 的 接口 函数 的 发 送 函 数 。 在 
ops 函数 中 有 两 个 相似 的 output 函数 : output 和 connected output, 前 者 用 于 一 般 情 况 下 的 发 

送 过 程 ， 后 者 是 已 经 建立 连接 ， 保 证 该 邻居 在 这 段 时 间 内 不 会 出 现 位 置 改变 时 调用 的 函数 指针 。 

在 连接 尚未 建立 时 ，neighbour 了 output 初始 化 为 neigh_ops?>output， 在 连接 建立 后 ， 
neighbour- output Æ X, neigh_ops>connected_output 成员。 参考 neigh_connect( ) 和 neigh_suspect( )。 
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4.6 ” 回 到 发 送 的 路 径 


4.6.1.1. IP 层 发 送 过 程 
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扎 了 一 个 很 深 的 猛 子 ， 不 知道 读者 回 过 神 来 没 。 但 是 我 们 还 得 继续 我 们 的 发 送 之 旅 。 读 者 要 
HT: 搞 了 这 么 久 ， 怎 么 还 没 把 一 个 报 文 发 出 去 呢 ? 不 急 ， 马 上 就 到 了 。 























5.4.1 节 我 们 提 到 了 查找 路 1 











， 当 找到 一 条 合适 的 路 由 之 后 ， 我 们 就 从 ip_route_output_flow 中 














返回 了 ,继续 执行 我 们 的 发 送 报 文 过 程 ， 











在 判断 inet->hdrincl= —0 之 后 , 我 们 就 开始 发 送 报 文 了 ， 





























就 是 我 们 之 前 提 到 的 ip_push_pending_frames : 











al Hes 
2 * JEX socket 之 上 所 有 未 处 理 的 IP 分 片 组 合成 一 个 IP 报 文 ， 然 后 把 它们 发 送出 去 
3 s 
4. int ip_push_pending_frames (struct sock *sk) 
S00 
6 struct sk_buff *skb, *tmp_skb; 
7 Struct sk buff **tai li skp; 
8 struct inet_sock *inet = inet_sk(sk); 
9c SmErejWenE aper (yon S! "Usu. c aN Uline 
OR struct rtable srt = inet-»cork.rt; 
dal struct iphdr *iph; 
12s bel6 df = 0; 
UZR O Fes tl 
TA; nne circa 0 
把 skb 从 发 送 队列 中 取出 
T53 if ((skb = _ skb_dequeue (&sk->sk_write_queue)) == NULL) 
16. goto out; 
ple S tail skb = &(skb shinfo(skb)-»frag list); 
ner 
19. /* move skb->data to ip header from ext header */ 
把 data 指针 往 ip AAR 
20 if (skb->data < skb-»nh.raw) 
zm __skb_pull(skb, skb-»nh.raw - skb-»data); 
ide while ((tmp skb - Skb dequeue(&sk-»sk write queue)) != NULL) { 
23 __skb_pull(tmp_skb, skb->h.raw - skb->nh.raw); 
24 *tail_skb = tmp_skb; 
25 tail_skb = &(tmp skb-»next); 
26 skb->len += tmp_skb->len; 
25 skb->data_len += tmp_skb->len; 
28 skb->truesize += tmp_skb->truesize; 
Zo, __sock_put (tmp_skb->sk) ; 
30 . tmp_skb->destructor = NULL; 
ol tmp skb-»sk = NULL; 
325 } 
Sor 
34. /* Unless user demanded real pmtu discovery (IP_PMTUDISC_DO), we allow 
35. * to fragment the frame generated her No matter, what transforms 
36. * how transforms change size of the packet, it will come out. 
SU. BH 
Son if (inet-»pmtudisc != IP_PMTUDISC_DO) 
So Skb-»local df = 1; 
40. 
41. /* DF bit is set when we want to see DF on outgoing frames. 
42. * If local df is set too, we still allow to fragment this frame 
Ais}, a Jodi: *// 
44. if (inet-»pmtudisc == IP PMTUDISC DO || 
qu. (skb->len <= dst mtu(&rt-»u.dst) && 
46. ip_dont_fragment (sk, &rt-»u.dst))) 
47. Che = iem (i D) p 
48. 
49. if (inet->cork.flags & IPCORK_ OPT) 
SOR opum umet >eon ODE, 
Bll. 
528 if (rt-»rt type == RTN MULTICAST) 
53» ttl--— Inet-»mc ttl 
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DM else 
iode om Cia were cto rm ete vasts c dst 
对 ip 头 进行 设置 ， 记 住 我 们 刚才 已 经 把 data 指向 了 ip X 
56. ijola = (seiner PAA rS koez data, 
S7 c iph->version = 4; 
Bes. iph->ihl = 5; 
89. aix (exo) 1 
60. iph->ihl += opt-»optlen»22; 
Gils ijo) (xs JewLlkel( elo. Opt Inet -Cork raddo iit, (00 p 
628 } 
625 iph->tos = inet-»tos; 
64. iph->tot_len = htons(skb->len) ; 
65. iph->frag_off = df; 
66. ip select ident(iph, &rt-»u.dst, sk); 
Gi. iaasa ae = velp 
68. iph->protocol = sk->sk_protocol; 
69., iph- sad diss rt DURSTO, 
OG iph->daddr = rt-»rt dst; 
T ip send check(iph); 
2n 
73s skb->priority = sk-»5sk priority; 
这 名 话 是 重 中 之 重 ! 我 们 之 前 查找 路 由 的 努力 ， 就 在 这 里 派 上 用 场 : skb 中 一 个 ast 成 员 指向 了 路 由 表 
cache 中 的 dst WR, 该 dst 的 refcnt 引用 计数 加 一 
74. skb->dst = dst clone(&rt-»u.dst); 
TS: 
76. /* Netfilter gets whole the not fragmented skb. */ 
于 我 们 不 关心 IP Filter 技术 ， 所 以 ， 请 无 视 NE BOOK 这 个 宏 ， 读 者 请 把 下 面 这 行 代码 看 成 : 
dst_output (skb) 就 可 以 了 ， 其 他 参数 不 用 细 究 。 
DT. err = NF_HOOK(PF_INET, NF_IP_LOCAL_OUT, skb, NULL, 
73m skb->dst->dev, dst_output) ; 
PDE. Teena Dep 
80. 
SITT OUT 
825 inet-»cork.flags &= ~IPCORK_OPT; 
Ud. kfree(inet-»cork.opt); 
84. inet-»cork.opt = NULL; 
B55 ah ine res core rt) 
86 . ipi rt püut(inet cork t 
NE inet-»cork.rt = NULL; 
88. ) 
SIE return err; 
SO 
Silks Gagre 
aas goto out; 
93. | 
代码 段 4-24 ip push pending frames 函数 
除了 ping 应 用 程序 以 外 ， 我 们 还 可 以 用 IPPROTO RAW 参数 来 使 用 RAW 接口 ， 比 如 OSPF 








的 组 播报 文 发 送 以 及 RSVP 等 协议 报 文 的 发 送 ， 都 使 用 socket(AF INET, SOCK RAW, 
IPPROTO OSPF 或 PPROTO_RSVP) 这 样 的 代码 , 故 ip_push_pending_frames Æ KRAH 














究 的 意义 
































他 使 用 IPPROTO_RAW 作为 socket 系统 调用 最 后 一 个 参数 的 应 上 
送 函 数 就 是 raw_send_hdrinc: 











ag 
D) 


TF, 内 核 中 对 应 的 发 























KO OO UO A 





static int raw_send_hdrinc(struct sock *sk 
St ue ttl ier 
unsigned int flags) 

struct inet sock *inet = inet sk(sk); 

signe, oum SA 

GWU TaN asi 

struct sk Duff *skb; 

sine, (ETE 


, Void *from, size t length, 











Linux2.6 协议 栈 源 代码 分 析 











发 送 长 度 大 于 MTU 的 情况 必须 退出 






































































































































KOR if (length > rt-»u.dst.dev-»mtu) { 
iS LEER esed 
12. return -EMSGSIZE; 
1.3). ) 
14, if (flags&MSG_PROBE) 
qu goto out; 
1L(S 
d hh len = LL RESERVED SPACE(rt-»u.dst.dev); 

这 里 和 之 前 的 ip push pending frames 不 同 ， 因 为 报 文 没 有 放 在 发 送 队 列 ， 所 以 此 时 才 创 建 skb 
18 . skb = sock alloc send skb(sk, length+hh len+15, 
ROR flags&MSG DONTWAIT, &err); 
20. 
zd Skb reserve(skb, hh len); 
22€ 
23. skb->priority = sk->sk_priority; 

和 上 面 的 发 送 函 数 一 样 ， 也 要 把 skbOdst 指向 rt>u.dst， 很 重要 的 一 个 过 程 
24. skb->dst = dst clone(&rt-»u.dst); 

把 iph 指针 指向 skb 的 ip 头 位置 
25} skb->nh.iph = iph = (struct iphdr *)skb put(skb, length); 
2r 
DEUM Skb-»ip summed = CHECKSUM NONE; 
DON 
BS): skb->h.raw = skb-»nh.raw; 

实际 上 把 用 户 层 的 发 送 数据 拷贝 到 skb 指向 的 iph 起 始 位 置 
SOK err = memcpy_fromiovecend((void *)iph, from, 0, length); 
Sq | eae 
326 
33. /* We don't modify invalid header */ 
34. if (length >= sizeof(*iph) && iph->ihl * 4U <= length) { 
2o if (l!iph-»saddr) 
36. ajsim»eMelouz = wesw (SUP 
Sp iph->check = 0; 
os iph->tot_len = htons (length); 
S9. if (!iph->id) 
40. ip select ident(iph, &rt-»u.dst, NULL); 
Al. 
a c iph->check = ip fast csum((unsigned char *)iph, iph->ihl); 
43. ) 

同样 经 过 NF_HOOK 来 调用 dst. output 函数 : 
44. err = NF HOOK(PF INET, NF IP LOCAL OUT, skb, NULL, rt-»u.dst.dev, 
45. dst_output) ; 
46. kfree skb(skb); 
47. error: 
48. IP INC STATS(IPSTATS MIB OUTDISCARDS); 
49. return err; 
50. 
代码 段 4-25 raw send hdrinc 函数 
此 函数 和 上 面 那个 ip push pending frames 没有 太 多 区 别 ， 所 以 我 们 继续 往 下 研究 。 


dst. output. 函数 直接 调 

































































WKS We? 请 回 到 _mkroute_output 函数 ， 它 就 对 dst>output 函数 进行 了 赋值 : ip output 





] skb->dst->output, dst 是 上 面 第 27 行 赋值 的 ， 那 dst>output 函数 是 
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ip_finish_output 

















ip_finish_output2 











表 4-8ip_output 函数 调用 树 


lm. 
EM 





ip. output PK ZI ECSCAR fij 8 
































ip output 实际 这 里 还 要 一 个 IP 


Filter 的 HOOK 宏 ， 请 无 
m d 视 它 即 可 


, 只 是 做 了 skb-»dev = dev; skb->protocol = ETH P IP: 这 么 两 


个 赋值 操作 后 就 调用 ip. finish. output 函数 。 后 者 几乎 没有 任何 变化 地 调用 ip_finish_output2 函数 。 

















ISA ip_finish_output2 函数 我 们 要 研究 研究 : 








SEALS cbedlsuee. in ajo sewinilsla Owiejowez (Siete Sle lowuei SKO) 


al 
2 { 

de struct dst entry *dst = skb-»dst; 

4. struct hh cache *hh = dst-»hh; 

5 struct net device *dev = dst-»dev; 

6 int hh len = LL RESERVED SPACE (dev); 
7 














第 一 次 进入 到 这 里 的 时 候 ，hh 等 于 NULL， 所 以 执行 neighbour >ou 








tput 函数 ， 它 实际 指 问 


neigh resolve output, 请 读者 回顾 arp_constructor 函数 ， 我 们 是 在 那个 函数 中 初始 化 


neighbour 的 ， 下 一 节 我 们 接收 neigh_resolve_output 函数 
Be JT pO nh t 




















OR int hh alen; 
hh, alen + 16, Ti hh>hh_len + 14 
LO hh alen = HH DATA ALIGN (hh-»hh len); 
把 2 层 报 文 头 一 次 性 拷贝 到 skb 中 ， 我 们 会 在 下 一 节 中 
Tu memcpy (skb->data - hh alen, hh-»hh data, hh alen); 
T2% 
3 skb_push(skb, hh-»hh len); 





FIX I nn. output EMARE? 这 里 我 们 先 告诉 大 家 ， 它 指向 了 dev queue xmit, ‘EA An] 38 I1 H3 3€ 














们 将 在 下 面 的 neigh_hh_init 中 介绍 。 























14. return hh-»hh output (skb); 

15, } 

NES else if (dst->neighbour) 

E return dst->neighbour->output (skb); 
ILS} c 

1,9). return -EINVAL; 

eo. n 





代码 段 4-26 ip finish output2 














原 以 为 要 发 送出 去 了 , 没 想到 里 面 还 有 这 么 多 名 堂 ,那个 hh 到 底 是 什么 东西 ? 难道 neighbour{} 








不 负责 底层 的 数据 发 送 吗 ? 
4.6.1.2. $Æ hh_cache 









































Linux 内 核 中 有 一 个 数据 结构 叫 hh_cache{}, 代码 中 没有 详细 的 注 




















知 其 所 用 ， 因 为 hh 是 什么 的 缩写 也 不 其 清楚 。 好 了 ， 让 我 告诉 你 吧 ， 


Y 











EFE, 初 看 这 个 数据 结构 会 不 
hh 就 是 hard header 的 缩写 ， 























和 cache 连 在 一 起 就 是 “hard header cache” 的 意思 。 我 知道 读者 们 还 是 没有 明白 ， 那 么 先 看 下 面 








一 副 图 : 




















虽然 我 们 下 
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完成 邻居 查找 之 后 


e) —» 




















DEV DEV 



































hh. cache 




















TA 





始 介绍 ARP， 但 是 我 们 还 是 可 以 从 











上 图 中 推断 出 hh cache 的 作用 : 硬 编 























址 高 缓 ， 就 是 存放 邻居 L2 














zB 





地 址 和 本 机 L2 层 接口 地 址 以 及 协议 号 的 缓存 。 


正好 这 个 缓存 可 
H ARP 的 框 画 比较 厚重 ， 而 























以 立即 拷贝 到 sk_buff{}>mac KA, WADA ARP HWN. EEY 


hh cache Lf: “W” ZARHAZ, A 
要 的 信息 ， 使 











呀 。 转 了 这 么 大 个 弯 。 
下 图 显示 了 hh_cache 和 其 他 各 部 分 之 间 的 关系 。 


hh_cache 最 后 面 就 是 2 


























为 从 下 一 节 可 以 看 到 ARP 比较 复杂 ， 而 hh | 
报 文 的 发 送 变 得 “轻重 ”起 来 ， 所 以 ，hh_cache 就 是 ARP 缓存 的 一 部 分 。 唉 ， 好 累 











于 保存 了 必 







































































dst_entry 
neighbour 
dev : 
» neighbour 
hh 广 
net_device 
n ha 
dev addr dev 
dishes b hh 
—> hh cache UE 



































目前 只 用 到 hh_cache *hh_next 
ETH P IP, < hh type 
其 它 的 | 
ETH_P_ARP， hh len ` 
ETH_P_8021Q (*hh_output)(...) d 
ETH P SLOW hh data 
暂时 没有 用 到 Ethhdr , 
> h_source a 4 
(1)neigh_blackhole / 
(2)neigh resolve output h. dest mo p 
(3)dev. queue, xmit h. proto «^ 











图 表 4-9 hh cache 的 结构 关系 图 











IRMA, 它 会 一 次 性 的 拷贝 到 sk. buff ! 














, 这 已 经 在 ip_finish_output2 





见识 到 了 。 图 中 通过 虚线 告诉 各 位 :这 个 报 文 头 的 内 容 是 从 什么 地 方 复制 过 来 的 。h_source 是 从 


net_device 4 





复制 过 来 的 。 





FAA H 


WF 








HÉS dev. addr ! 


HERS AWN go 
一 次 发 出 去 的 时 候 ， 


























复制 来 的 ,h_dest 是 从 neighbour ! 























m 























它 走 的 不 是 第 10 fT; 
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E 解 的 一 段 代码 ， 就 是 neigh_resolve_output 函数 。 要 注意 的 是 ， 在 
因为 对 应 邻居 的 hh_cache 还 没有 被 创建 ， 只 能 





的 ha 复制 过 来 ,h_proto 是 从 hh. type 











Liu x26 YURI _. 
直接 走 到 此 函数 的 第 16 行 。 




















在 这 个 函数 开头 有 这 么 一 句 注释 : /* Slow and careful. */ 

那么 这 个 函数 有 什么 要 小 心 的 地 方 呢 ? 读者 们 会 提出 疑问 : 不 就 几 行 代码 吗 ， 也 没有 什么 奇怪 的 语法 和 复 
杂 的 循环 ， 小 心 什 么 呢 ? 

int neigh resolve output(struct sk buff *skb) 

{ 











truct dst entry *dst = skb-»dst; 
truct neighbour *neigh; 
iue xx e Ope 
和 主意， 请 看 下 面 对 此 判断 的 评 解 
f (!neigh_event_send(neigh, skb)) { 
TAE LENE 
struct net_device *dev = neigh->dev; 
if (dev->hard_header_cache && !dst-»hh) { 
ap Helene NA) 
neigh hh init (neigh, dst, dst->ops-—>protocol) ; 
` 要 被 这 个 err 迷惑 了 ， 其 实在 正常 情况 下 它 是 ETH_HLEN， 即 14 
I2 err = dev-»hard header(skb, dev, ntohs(skb-»protocol), 
LS. neigh->ha, NULL, skb->len); 
14-7 ) 
err 肯定 大 于 0, FH queve_xmit 才 是 真正 到 达 了 驱动 程序 那 一 级 代码 
es if (err >= 0) 


C150 PN P 








ae BD EOI 























[> |) Ave} Yee) SIEG 
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(—. (3.0 
























































16. rc = neigh-»ops-»queue xmit (skb); 
Jy s } 

Io (xb. E 

iS). nae "deep 

2. . 





代码 段 4-27neigh resolve output 函数 


























很 显然 ， 我 们 会 进入 neigh event send 这 个 函数 ， 但 是 要 搞 清楚 返回 结果 。 一 定 有 读者 说 是 
neigh resolve output 调用 neigh event send 发 送 了 ARP 报 文 ， 那 我 们 看 看 是 否 真 的 如 此 。 先 给 上 
neigh event, send 的 代码 : 

















LC 



























































1. static inline int neigh event send(struct neighbour *neigh, struct sk buff *skb) 

Ee cq 

3 neigh->used = jiffies; 
ping 127.0.0.1H[, Hnud_state į NUD_NOARP, Hl 0x40， 所 以 这 个 判断 不 会 进入 ， 只 简单 返 
[nl o. 

a. if (!(neigh-»nud state& (NUD CONNECTED | NUD_DELAY |NUD_PROBE) ) ) 

5% return , neigh event send(neigh, skb); 

5. return 0; 

SERE 





代码 段 4-28 neigh event send 函数 
































然后 再 进入 _neigh_event_send， 研 究 半 天 ， 发 现 这 个 函数 可 不 象 它 的 名 字 那 样 发 送 一 个 什么 
事件 ， 而 只 是 对 neigh>nud_state 进行 修改 ， 以 期 neigh>timer 能 根据 这 个 状态 值 有 进一步 操作 。 





























int neigh_event_send(struct neighbour *neigh, struct sk_buff *skb) 


{ 





alia, wer 
unsigned long now; 


now = jiffies; 


H^ H|pu0-IloocsuU0NmIGD 
K 
Q 
ll 
o 
- 


HO. 


if (!(neigh->nud_state & (NUD_STALE | NUD_INCOMPLETE))) { 
arp tbl 中 定义 下 面 这 两 个 成 员 变 量 都 为 3， 所 以 和 为 6， 进 入 条 件 满足 
if (neigh-»parms-»mcast probes + neigh-»parms-»app probes) { 
把 probes 设置 为 缺 省 的 ucast_probes (3), WOKE arp slocit MACH HH 
atomic_set (&neigh->probes, neigh->parms-—>ucast_probes) ; 
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14. 
TSF 
LG. 
LD 
Tes 


19. 
20. 
Lc 
A c 
2.3)c 
24. 
Do 
AG 


21 c 
BRS c 


29. 
SOR 
Sun 
S2 
Sor 


34. 
EISE 


36 c 
S 
SHS 
39. 


40. 


neigh-»nud state = NUD INCOMPLETE; 
neigh->updated = jiffies; 


neigh_add_timer(neigh, now + 1); 











先 不 考虑 其 他 情况 
} lse if (neigh->nud_state & NUD_STALE) { 
NEIGH_PRINTK2 ("neigh $p is delayed.\n", neigh); 














neigh-»nud state = NUD DELAY; 
neigh->updated = jiffies; 
neigh_add_timer(neigh, jiffies + neigh-»parms-»delay probe time); 






































于 第 14 行 对 nud, state 设置 为 INCOMPLETE， 所 以 进入 下 面 的 代码 段 
if (neigh->nud_state == NUD_INCOMPLETE) { 
TERRES RONE 
queue len fÉ arp tbl 中 设置 为 3， 如 果 该 neign 中 待 发 送 的 报 文 超过 3， 那 么 就 减少 它 
if (skb queue len(&neigh-»arp queue) >= 
neigh-»parms-»queue len) { 























kfree_skb (buff); 

} 
将 此 报 文 挂 到 neigh 的 arp 报 文 队列 中 ， 必 须要 注意 的 是 ， 要 发 送 的 arp 报 文 并 不 是 这 个 ， 而 是 arp BA 
块 从 此 报 文中 抽取 相关 信息 ， 然 后 据 此 再 创建 一 个 arp RC, RISE arp 一 节 中 看 到 


__skb_queue_tail(&neigh->arp_queue, skb); 



























































} 
返回 值 为 1， 导 致 neigh_resolve_output 不 会 执行 第 7 行 以 下 的 代码 


Seo es bn 














} 
out_unlock_bh: 
IASI aI e 








ste 
H 


代码 段 4-29  neigh event send 函数 








读者 们 注意 啦 ， 如 果 目 的 地 址 是 loopback 地 址 或 者 本 地 地 址 ， 而 本 地 地 址 没有 UP 的 时 候 ， 
































此 函数 直接 返回 0 到 neigh_resolve_output 函数 ， 进 入 此 函数 的 第 8 行 ， 不 管 是 loopback 接口 还 是 











以 太 网 接口 ，dev->hard_header_cache 都 指向 eth_header_cache， 所 以 都 会 进入 下 面 这 个 函数 : 








static void neigh_hh_init (struct neighbour *n, struct dst_entry *dst, 
ul6 protocol) 
{ 
struct hh_cache *hh; 
struct net device *dev = dst-»dev; 





for (hh = n->hh; hh; hh = hh->hh_next) 


if (hh->hh_type == protocol) 
break; 
if (!hh && (hh = kzalloc(sizeof(*hh), GFP ATOMIC)) != NULL) { 


rwlock are (Ghnh—ohh. Lock). 
hh->hh_type = protocol; 

atomic set(&hh-»hh refcnt, 0); 
hh-»hh next = NULL; 


调用 eth header. cache 函数 ， 几 乎 所 有 必要 的 信息 都 放 在 n 中 ， 只 要 抽取 这 些 信 息 放 入 hh 中 就 行 












































if (dev->hard_header_cache(n, hh) ) 


kfree (hh); 
hh = NULL; 
} else { 


atomic_inc(&hh->hh_refcnt) ; 
hh->hh_next = n-»hh; 
n->hh = hh; 
XP ping 127.0.0.1, H nud state @ NUD NOARP, J/TLÀ hh output jÉ 


n2ops2hh output 函数 ， 即 arp hh ops 结构 中 的 dev queue xmit 函数 





AA 
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if (n->nud_state & NUD_CONNECTED) 
hh->hh_output = n-»ops-»hh output; 
else 
hh->hh_output = n-»ops-»output; 
} 


abi (deum) — 4f 
这 里 对 dst hh 赋值 ， 它 对 ip finish output2 中 第 19 行 产 生 作 用 ， 




















> 
































接 到 达 驱 动 屋 ， 而 不 用 neighbour 系统 的 帮助 了 


sie he = Inlay 


为 以 后 的 报 文 发 送 ,将 直 








代码 段 4-30 neigh hh init 函数 








上 图 中 虚线 基本 上 可 以 描述 此 函数 的 功能 : h. source 来 自 于 设备 的 dev. addr. h. dest 来 自 于 邻 
居 的 ha 地 址 ， 而 type 目前 就 是 ETH IP, 来自 于 ipv4_dst_ops。 然 后 代表 3 层 信息 的 dst 和 代表 2 


层 的 neighbour 都 指向 了 hh_cache， 说 明 它 就 是 维系 3 层 和 2 层 的 关键 ! 







































































接着 neigh resolve output 给 报 文 填 上 2 层 报 文 头 ， 发 送 到 设备 层 去 了 。 


















































在 此 应 该 有 读者 开始 想到 这 里 面 有 一 个 很 关键 的 问题 : 邻居 的 ha 地 址 是 如 何 得 到 的 ? 报 文 都 
已 经 发 送出 去 了 ， 怎 么 回 事 ? 这 里 面 隐 藏 着 一 个 巨大 的 陷阱 。 读 者 必须 看 完 ARP 那 一 他 之 后 才能 
















































































































































































































































































跳出 这 么 一 个 陷阱 。 
Ping 环 回 地 址 的 过 程 已 经 在 代码 中 给 出 , 现 考虑 ping 一 个 非 环 回 地 址 的 情况 。 可 以 总 结 如 下 : 
1. 当 第 一 次 进入 这 个 函数 时 ， 由 于 我 们 曾经 在 创建 这 个 neighbour{ } 的 时 候 ， 设 置 其 状态 
为 NUD_NONE， 上 所 以 ， 可 以 进入 _neigh_event_send 
2: “4 neigh nud state 被 设置 为 NUD_INCOMPLETE 后 , 该 neigh 的 定时 器 函数 将 要 采取 
一 些 操作 了 ， 这 个 timer 是 在 neigh_alloc 中 制定 的 。 代 码 列 下 : 
1. /* 此 函数 只 有 当 邻 居 表 项 定时 器 超时 的 时 候 才 会 被 调用 
Dax wj 
3. static void neigh_timer_handler (unsigned long arg) 
ASE 
5s unsigned long now, next; 
6. struct neighbour *neigh = (struct neighbour *)arg; 
TES unsigned state; 
3s aae Aeey = OR 
On 
记 住 我 们 已 经 在 _neigh_event_send 中 将 其 设置 为 NUD_INCOMPLETFE 
Oe state = neigh-»nud state; 
dept. now = jiffies; 
2% next = now + HZ; 
不 会 进入 下 面 的 判断 ， 所 以 请 直接 看 到 第 75 行 
153% if (! (state & NUD_IN_TIMER)) { 
14. yo out 
i53 } 
LE 
I if (state & NUD_REACHABLE) { 
18 . if (time_before_eq (now, 
19. neigh->confirmed + neigh-»parms-»reachable time)) { 
20 NEIGH_PRINTK2 ("neigh $p is still alive.\n", neigh); 
2 next = neigh->confirmed + neigh->parms->reachable time; 
22 } else if (time_before_eq(now, 
23 neigh->used + neigh-»parms-»delay probe time)) { 
24 NEIGH PRINTK2("neigh $p is delayed.\n", neigh); 
25 neigh->nud_state = NUD_DELAY; 
26 neigh->updated = jiffies; 
27 neigh_suspect (neigh) ; 
28 next = now + neigh-»parms-»delay probe time; 
aS e } else { 
SOS NEIGH PRINTK2("neigh $p is suspected.\n", neigh); 
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Shab c 
32. 
S3c 
34. 
35. 
36. 
S c 
EE 
SY) 
40. 
ae 
42. 
43. 
44. 
45. 
46. 
due 
48. 
49. 
505 
Bll. 
52 
EE 
54. 
S3 
96. 
Sc 
585 


59). 
60. 
ON 
62. 
63. 
64. 
65. 
66. 
67. 
68. 
69. 
WO 
TAL; 
U2. 
Uc 
74. 
US 
vice 


WT 


U3 


WS. 
80. 
Lc 
82. 
83. 


84. 
85. 


86. 
91 c 
88. 
89. 
90. 
OH 


neigh-»nud state = NUD STALE; 
neigh-»updated = jiffies; 
neigh_suspect (neigh) ; 
notify = 1; 
} 
} else if (state & NUD_DELAY) { 
if (time before eq(now, 
neigh->confirmed + neigh-»parms-»delay probe time)) { 
NEIGH PRINTK2("neigh $p is now reachable.\n", neigh); 
neigh-»nud state = NUD REACHABLE; 
neigh-»updated = jiffies; 
neigh connect (neigh); 
notify = 1; 
next = neigh->confirmed + neigh-»parms-»reachable time; 
} else { 
NEIGH_PRINTK2 ("neigh $p is probed.\n", neigh); 
neigh->nud_state = NUD PROBE; 
neigh-»updated = jiffies; 
atomic set(&neigh-»probes, 0); 
next = now + neigh-»parms-»retrans time; 
} 
} else { 
/* NUD_PROBE|NUD_INCOMPLETE */ 
next = now + neigh-»parms-»retrans time; 








} 


if ((neigh->nud_state & (NUD_INCOMPLETE | NUD PROBE)) && 
atomic read(&neigh-»probes) >= neigh max probes (neigh)) { 


发 送 次 数 超过 了 neigh 最 大 的 刺探 数 ， 所 以 要 把 队列 清 掉 
struct sk buff *skbs 























neigh-»nud state = NUD FAILED; 
Skb queue purge(&neigh-^»arp queue); 


} 


if (neigh->nud_state & NUD_IN_TIMER) { 
Hse (eime cone Nness MEER fant SE HA/AA) 
MEE uc ME MED E 
'mod_timer (&neigh->timer, next); 
} 
if (neigh->nud_state & (NUD_INCOMPLETE | NUD_PROBE)) { 
struct sk buff *skb = skb peek(&neigh-^»arp queue); 
/* keep skb alive even if arp queue overflows */ 
if (skb) 
Skb get (skb); 




































调用 arp_solicit， 如 不 记得 怎么 回 事 ， 请 参考 前 面 的 arp_constructor 函数 
neigh-»ops-»solicit(neigh, skb); 
把 probes 的 次 数 加 一 ， 这 个 变量 比较 重要 ， 我 们 会 在 arp_solicit 中 引用 至 
atomic inc(&neigh-»probes); 
难道 已 经 发 送 完 arp 报 文 后 ， 就 把 队列 中 的 sko 删除 ? 不 是 ， 实 际 上 只 是 将 报 文 的 引用 计数 减 1， 请 联系 
第 78 行 的 代码 ( 它 是 对 其 引用 计数 加 1) 
if (skb) 
kfree skb(skb); 
} else ( 
Outs 
} 
奇怪 的 是 ， 目 前 Linux 系统 中 没有 模块 注册 对 NEIGH_UPDATE 3 
if (notify) 
call netevent notifiers (NETEVENT NEIGH UPDATE, neigh); 


如 果 我 们 在 应 用 层 有 arp 的 daemon， 就 可 以 如 下 操作 : 
#ifdef CONFIG_ARPD 
if (notify && neigh-»parms-^»app probes) 
neigh app. notify (neigh); 


























— 

































































Td 
DE 





F 感 兴趣 ， 所 以 下 面 的 代码 没有 意义 
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#endif 
neigh_release (neigh); 
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代码 段 4-31 neigh_timer_handler & 




















图 




















读者 一 定 搞 墅 了， 那么 我 们 现在 就 先 给 出 一 豆 
的 概念 。 注 意 这 里 有 2 台 主 机 。 
Host A 














User ^m | INET | 


Neighbour 





E | 





ARP | 














FIB， 更 新 cache 


由 cache， 









































正如 你 所 








Ly 








定时 器 开 


4.7 ARP 的 作用 


IP 地 址 是 运行 TCP/IP 协议 机 器 的 通用 标识 , 但 是 IP 地 址 


见 ， 系 统 调用 send & O wan 
ALE, ERIE ARP 报 文 给 对 端 主机 ,当地 址 解析 完毕 ,然后 才 把 真正 的 报 文 发 送出 



































函数 


， 让 大 家 可 以 对 报 文 发 送 的 流程 有 














个 总 体 





Host B 





















































e 邻居 没有 准备 好 
© 定时 器 发 起 
ARP 请 求 
向 对 端 发 送 请 求 | 
— ARP REQUEST 
P Q N 
hannar ARP REPLY 
更 新 邻居 子 系统 
更 新 完毕 ， 
发 送 原来 保存 报 文 
图 表 4-10 邻 居 子 系统 初次 发 送 过 程 的 序列 图 





























网 络 系统 自 
台 机 器 时 ， 经 常 通过 IP 





络 软件 和 硬件 却 不 是 这 样 。 
地 址 ， 不 是 TCP/IP 协议 的 标准 

















地 址 得 到 物理 
分 任务 。 





身 及 其 行为 对 网 络 操作 系统 和 硬件 类 型 


地 址 来 完成 。 虽 然 T 














A 


相反 ， 网 络 使 用 编码 至 网 络 硬件 














而 言 是 特殊 的 。 当 用 户 把 一 
CP/IP 设计 成 围绕 着 IP 地 址 工作 ， 但 是 实际 的 网 
中 的 地 址 来 识别 每 一 
部 分 ， 所 以 开发 了 许多 特殊 的 协议 来 完成 这 一 部 
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身 不 能 使 报 文 到 达 其 目 








回 了 一 一 用 户 报 文 还 没有 发 送出 去 ! 而 系统 内 部 的 


去 。 

















的 地 。 
块 数 据 发 送 到 另 一 





ALA. M IP 





Linux2.6 协议 栈 源 代 码 分 析 


4.7.1 ARP 的 机 制 











主机 的 哪个 接口 ， 当 3 


机 要 发 送 一 个 IP 

















ARP【〔 地 址 解析 ) 协议 就 是 这 样 一 种 解析 协议 ， 本 来 主机 是 完全 不 知 











会 首先 查 


包 的 时 候 ， 





























道 这 个 IP 对 应 的 是 哪个 


下 自己 的 ARP 高 速 缓存 〈 就 是 一 




















个 IP-MAC 地 址 对 应 表 缓 存 ，Linux 是 通过 rtable+dst_entry+hh_cache 完成 的 )， 如 果 查 询 的 IP— 








MAC 值 对 不 存在 ， 那 么 主机 就 向 网 络 发 送 一 个 ARP 协议 广播 包 ， 这 个 广播 包 里 面 就 有 竺 查询 的 














IP 地 址 ， 而 直接 收 到 这 份 
主机 发 现 自己 符合 条 件 , 习 
主机 拿 到 ARP 包 后 会 更 新 








的 主机 ， 而 广播 


























Pp 么 就 准备 好 














广播 的 包 的 所 有 主机 都 会 查询 自己 
个 包含 自己 的 MAC 地 址 的 ARP 包 



























































LJ IP Hahk, 如果 收 到 广播 包 的 某 一 个 








发 送 广播 的 主机 就 会 用 新 的 ARP 缓存 数据 准备 好 数据 链 路 层 的 的 数据 包 发 送 工作 。 
ARP 协议 和 RARP 协议 














AR P 高 效 运行 的 关键 是 
Internet 地 址 到 硬件 地 址 之 间 的 映射 















































始 时 间 从 被 创建 时 开始 算 起 。 








A RP 协议 有 








个 缺陷 : 











和 ARP 应 答 。 














记录 。 高 速 缓存 ， 


假如 一 个 设备 不 知道 它 
简单 的 解决 办 法 是 使 用 反 向 地 址 解析 
式 工 作 。RARP 发 出 要 反 向 解析 的 物理 地 址 并 希望 返回 大 





传送 给 发 送 ARP 广播 
LH] ARP 缓存 〈 就 是 存放 IP-MAC 对 应 表 的 地 方 )。 







































































R A P 服务 器 发 出 的 IP 地 址 。 虽然 发 送 方 发 出 的 是 广播 信息 ， 
产生 应 答 。 许 多 网 络 指定 多 个 RARP 服务 器 ， 这 样 做 既是 为 了 平衡 负载 也 是 为 了 作为 出 现 问题 时 


的 备份 。 





FL 








每 一 项 的 生存 时 



































于 每 个 主机 上 都 有 一 个 ARP 高 速 缓存 。 这 个 高 速 缓存 存放 了 最 近 
间 一 般 为 2 0 分钟， 起 


己 的 IP 地 址 ， 就 没有 办 法 产生 ARP 请 求 
协议 (RARP )，RARP 以 ARP 相反 的 方 


IP 地 址 ， 应 答 包 括 由 能 够 提供 信息 的 


RARP 规定 只 有 RARP 服务 器 能 





RARP 分 组 的 格式 与 ARP 分 组 基本 一 致 。 它 们 之 间 主 要 的 差别 是 R A RP 请 求 或 应 答 的 帧 类 
型 代码 为 0x8035， 而 且 RARP 请 求 的 操作 代码 为 3， 应 答 操 作 代 码 为 4。 


对 应 于 ARP, RARP 请 求 以 广播 方式 传送 ， 而 RARP 应 答 一 般 是 单 播 (unicast ) 传 送 的 。 





地 址 和 硬件 地 址 ， 因 





应 答 就 可 以 了 。 























4.7.2 ARP 报 文 格式 





在 以 太 网 





上 解析 IP 地 址 时 ， 














用 于 其 他 类 型 的 网 





四 个 字段 的 类 型 和 长 度 )。 


ARP 请 


的 一 部 分 。1 









































日 相应 的 硬 伯 





HM n uU 
虽然 R A RP 在 概念 上 很 简单 ， 但 是 一 个 RARP 服务 器 的 设计 与 系统 相关 而 且 比较 复杂 。 相 
反 ， 提 供 一 个 A RP 服务 器 很 简单 ， 通 常 是 TCP/IP 在 内 核 中 实现 
此 当 它 收 到 一 个 询问 IP 地 址 的 ARP 请 求 时 ， 只 需 月 





于 内 核 知 道 TP 
地址 来 提供 























求 和 应 答 分 组 的 格式 如 图 4-3 所 示 ( ARP AL 





络 ,可 以 解析 IP 地 址 以 外 的 地 址 。 紧 跟着 帧 类 型 字段 的 前 四 个 字段 指定 了 最 后 












































0x806 硬件 地 址 长 度 
协议 地 址 长 度 
帧 类 | 硬件 | 协议 发 送 端 以 太 网 地 | 发 送 端 |P 地 " 
DA m | 类 型 | 类 型 | 1] 1| OP at at 目的 以 太 网 地 址 | 目的 IP 地 址 
6 2 2 2 2 6 4 6 4 
28 个 字 节 的 ARP 报 文 段 








图 表 4-11 ARP 报 文 格式 





以 大 网 报头 中 的 前 两 个 字段 是 以 太 网 的 源 地 址 和 目的 地 址 。 














播 地 址 。 

















EE 绕 上 的 所 有 以 太 网 接口 都 要 接收 广 捐 
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目的 地 址 为 全 1 的 特殊 地 址 是 广 





的 数据 帧 。 两 个 字 贡 长 的 以 大 网 帧 类 型 表示 后 面 
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数据 的 类 型 。 对 于 A RP 请 求 或 应 答 来 说 ， 该 字段 的 值 为 0x0806。 


形容 词 h ar d w are (人 硬件) 和 protoco1l( 协 议 ) 用 来 描述 A RP 分 组 
一 个 A RP 请 求 分 组 询问 协议 地 址 (这 里 是 IP 地 址 〉 对 应 的 硬 伯 
字段 表示 人 硬件 地 址 的 类 型 。 它 的 值 为 1 即 


fi 


LAS FEY 





射 的 


协议 地 址 类 型 。 






































AN 











帧 中 的 类 型 字段 的 值 相同 ， 这 是 有 意 设计 的 。 




















长 度 





接 下 来 的 四 个 字段 是 发 送 端 的 硬件 地 址 (在 本 例 ! 
地 址 )、 目 的 端的 硬件 地 址 和 目的 端的 协议 地 址 。 注 
报头 中 和 A RP 请 求 数据 帧 


换 两 个 发 送 端 } 
从 RFC 的 定义 | 


以 完成 ARP 的 协议 。 那 么 上 
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E E S E. 














操作 字段 指出 四 种 操作 类 型 ， 
求 ( 值 为 3) 和 RARP 应 答 ( 值 为 
P 请 求 和 A RP 应 答 的 帧 类 型 字段 





的 各 个 字段 。 例 如 ， 
F 地 址 (这 里 是 以 太 网 地 址 )。 

示 以 太 网 地 址 。 协 议 类 型 字段 表示 要 了 映 
它 的 值 为 0x 0800 即 表示 IP 地 址 。 它 的 值 与 包含 IP 数据 报 的 以 太 网 数据 








接 下 来 的 两 个 1 字 节 的 字段 ， 硬 件 地 址 长 度 和 协议 地 址 长 度 分 别 指出 硬件 地 址 和 协议 地 址 的 
， 以 字 节 为 单位 。 对 于 以 太 网 上 IP 地 址 的 A R P 请 求 或 应 答 来 说 ， 它 们 的 值 分 别 为 6 和 4. 























直 是 相同 的 。 























last used 


last updated 





述 本 项 

















flags 
IP 





address 
hardware address 


hardware header 





E 
是 个 


timer 
retries 


sk_buff queue 





AI 





FPF 都 有 发 送 端的 硬件 地 址 。 
对 于 一 个 A RP 请 求 来 说 ， 除 目的 端 硬件 地 址 外 的 所 有 
一 份 目的 端 为 本 机 的 A RP 请 求 报 文 后 ， 它 就 把 人 硬件 地 址 填 进 去 

















它们 是 ARP 请 求 ( 值 为 1)、ARP 应 答 〈 值 为 2)、RARP 请 
4) (我 们 在 第 5 章 讨论 RA RP)。 这 个 字段 必需 的 ， 





因为 AR 


是 以 太 网 地 址 )、 发 送 端的 协议 地 址 〈I P 
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ia, XX HD 












































他 的 字段 都 有 填 















































， 然 后 








也 址 ， 并 把 操作 字段 置 为 2， 最 后 把 它 发 送 回 去 。 
FE 看 , 我们 可 以 归纳 出 一 个 系统 如 
结构 应 该 有 如 下 字段 : 
本 ARP 项 最 近 一 次 使 用 的 时 间 
本 ARP 项 最 近 一 次 更 新 的 时 间 
的 由 




















FH 





用 两 个 
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RAS, "fA 
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WAY IP 地 址 














timer list 








要 解析 的 硬件 地 址 
指向 缓存 硬件 头 的 指针 
m, HF ARP 请 求 没有 响应 时 的 超时 


























ARP 请 求 重 试 的 次 数 


A^ 
at 


fir IP 地 址 解析 的 sk. buff 项 列表 


那么 Linux 是 如 何 实现 的 呢 ? 


4.7.3 Linux ARP 协议 的 实现 


4.7.3.1. 


协议 初始 化 





些 重 复 信息 : 在 以 大 网 的 数据 帧 





充值 。 当 系统 收 
的 端 地 址 分 别 蔡 


到 

















要 实现 ARP， 必 须 提 供 一 个 arp table 结构 


我 们 之 前 在 系统 初始 化 的 时 候 已 经 看 到 arp 的 初始 化 了 ,现在 详细 讨论 一 下 它 的 内 部 实现 ， 还 





是 从 arp_init 














始 。 





第 167 页 


的 数据 结构 。 这 里 表示 的 连接 表示 的 是 物理 连接 ， 如 果 没 有 任何 机 器 和 这 人 台 机 器 相连 接 的 花 ， 那 
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arp_init 














neigh_table_init(&arp_tbl) 

















dev_add_pack(&arp_packet_type) 


7 挂 接 arp_netdev_event 
register_netdevice_notifier(&arp_netdev_notifier) BUR 


图 表 4-12 arp init 函数 调用 树 






































先 介绍 系统 中 的 一 个 重要 的 数据 结构 : neigh_table。 它 是 用 来 包含 和 本 机 相连 接 的 所 有 的 邻居 



























































么 可 以 不 初始 化 这 个 数据 结构 : 如果 是 一 个 星 型 网 络 的 中 心 ， 那 么 和 它 相 连 的 所 有 机 器 都 会 表示 


为 这 种 形式 的 数据 存放 在 neigh_table 结构 的 链表 中 。 

















arp_tbl 是 一 个 类 型 为 struct neigh_table 的 全 局 变量 , 它 是 一 个 ARP 的 缓存 表 , 也 称 为 邻居 表 。 
协议 栈 通过 ARP 协议 获取 到 的 网 络 上 邻居 主机 的 卫 地 址 与 MAC 地 址 的 对 应 关系 都 会 保存 在 这 个 
表 中 ， 以 备 下 次 与 邻居 通讯 时 使 用 ， 同 时 ，ARP 模块 自身 也 会 提供 一 套 相 应 的 机 制 来 更 新 和 维护 
这 个 邻居 表 。 下 面 逐 个 分 析 arp_tbl 中 的 重要 成 员 数 据 与 函数 。 


对 于 TCP/IP 协议 来 说 ， 应 该 是 以 ARP 方式 判断 邻居 ， 即 ARP 数据 包 到 达 的 下 一 台 机 器 就 是 
本 机 的 邻居 ， 应 该 加 入 到 ARP 指定 的 一 个 neigh_table{ } 结 构 中 ， 也 就 是 arp tbl 变量 。 注 : 2.6 中 
无 gc. task 变量 




































































SI CY HC PN Hm 


Os 
wile 


16. 


/* 


* 


A 


neighbour table manipulation 


Struct neigh table 


{ 


struct neigh table *next; 
XT arp tolir r iE AF INET 
irure family; 
entry size 是 一 个 入 口 的 大 小 ， 也 就 是 arp_tbl 中 一 个 邻居 的 大 小 ， 邻 居 用 struct neighbour Zi 
构 体 表示 ， 该 结构 体 的 最 后 一 个 成 员 是 u8 primary_key[0]， 用 于 存放 re 地 址 ， 作 为 这 个 邻居 的 哈 希 
主键 。 所 以 entry size 的 大 小 就 是 sizeof (struct neighbour) + 4， 因 为 是 用 IP 地 址 作 主 键 ， 
所 以 key_len 就 是 4。kmem_cachep 是 一 个 后 备 高 速 缓存 ， 创 建 一 个 邻居 需要 的 内 存 从 这 个 后 备 高 速 



































绥 存 中 去 取 。 

aliq entry size; 

qat key len; 

kmem cache t *kmem cachep; 



































hash, buckets 是 一 个 哈 希 数 组 ， 里 面 存 放 了 arp tbl 当前 维护 的 所 有 的 邻居 ，nash_mask 是 哈 希 数 
组 大 小 的 掩 码 ， 其 初始 值 为 1， 所 以 hash_buckets 的 初始 大 小 为 2(0 到 hash_mask 的 空间 范围 ) 。 
entries 是 整个 arp_tbl 中 邻居 的 数量 ， 当 entries 大 于 hash_mask+1 HX, hash buckets 
增长 为 原来 的 两 部 。 成 员 hash 是 一 个 哈 希 函数 指针 ， 用 于 计算 哈 希 值 。 


































































































E37 (*hash) (const void *pkey, const struct net device *); 

struct neighbour **hash buckets; 

unsigned int hash mask; 

atomic t entries; 

这 是 用 于 代理 ARP 的 邻居 哈 希 表 ， 固 定 有 PNEIGH_HASHMASK 项 即 0xF 个 ， 其 它 与 hash_buckets 相 
同 。 


struct pneigh entry**phash buckets; 
这 是 一 个 邻居 的 初始 化 函数 指针 ， 每 次 创建 出 一 个 邻居 后 ， 需 要 马上 调用 这 个 函数 对 新 创建 的 邻居 进行 一 
些 初始 化 操作 。 邻 居 创 建 完 ， 已 经 被 赋 于 一 个 IP 地址 (邻居 结构 体 的 primary_key 成 员 )， 该 函数 首先 
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WI 6 
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28. 







































































根据 这 个 IP 地 址 来 确定 其 地 址 类 型 ， 然 后 为 邻居 选择 相应 的 操作 函数 集 (初始 化 邻居 结构 体 的 一 些 成 员 ， 
在 讲 到 邻居 结构 体内 容 时 再 进行 分 析 ) 。 

int (*constructor) (struct neighbour *); 

这 是 代理 ARP 的 邻居 的 构建 和 析 构 函数 指针 ， 在 IPv4 模块 中 ， 未 提供 这 两 个 函数 ， 所 以 它们 的 指针 值 为 
AES 

quib (*pconstructor) (struct pneigh entry *); 

void (*pdestructor) (struct pneigh entry *); 

void Uu EP Sk buff *skb); 

id 作为 这 个 邻居 表 的 一 个 名 称 ， 是 一 个 字符 串 信 息 ， 内 核 协 议 栈 的 arpP_tbl 的 id 是 arp_cache。 
char A cra 

这 是 一 个 结构 体 neigh_parms{ 1} 的 链表 ， 系 统 中 每 个 网 络 设备 接口 对 应 链表 中 一 个 节点 ， 表 示 该 设备 接 
口上 的 邻居 的 一 些 传输 参数 。 同 时 ， 链 表 中 还 有 一 个 缺 省 的 项 。 

struct neigh_parms parms; 

gc_thresh3 是 arp tbl 中 允许 拥有 的 邻居 数量 的 上 限 ， 一 旦 超过 这 个 上 限 ， 并 且 表 中 没有 可 以 清理 掉 
的 垃圾 邻居 ， 那 么 就 无 法 创建 新 的 邻居 ， 这 个 值 缺 省 被 置 为 1024。gc_thresh2 是 第 二 个 阀 值 ， 如 果 表 
中 的 邻居 数量 超过 这 个 阀 值 ， 了 在 需要 创建 新 的 邻居 时 ， 发 现 已 经 超过 5 秒 时 间 表 没有 被 刷新 过 ， 则 必 
须 立 即 刷新 arp_tbl 表 ， 进 行 强制 垃圾 回收 ， 这 个 值 缺 省 被 置 为 512。gc_threshl 的 用 途 暂 时 还 没有 
发 现 ， 它 缺 省 被 置 为 128。gc_interval 应 该 是 常规 的 垃圾 回收 间隔 时 间 ， 被 缺 省 置 为 30 秒 ， 但 目前 
在 源 代码 中 似乎 没有 看 到 它 的 应 用 。 强 制 垃圾 收集 的 工作 即 是 把 引用 计数 为 1， 上 且 状 态 中 没有 

NUD PERMANENT 的 邻居 全 部 从 arp tbl 表 中 删除 。 

int gc interval; 

Tut gc threshl; 

nt gc thresh2; 

int gc thresh3; 

unsigned long last flush; 

这 是 一 个 常规 垃圾 回收 的 定时 器 ， 其 定时 处 理 函 数 是 neigh_perioqic timer。 该 定时 器 超时 后 ， 处 理 
函数 处 理 hash buckets 表 中 的 一 项 ， 下 次 超时 后 ， 再 处 理 下 一 项 ， 这 里 的 垃圾 回收 比 强制 垃圾 回收 条 
件 要 宽松 得 多 ， 如 果 邻 居 的 状态 为 NUD_PERMANENT 或 NUD_IN_TIMER (该 邻居 正在 解析 中 ) ， 则 不 能 回 
收 。 当 邻居 的 引用 计数 为 1 时， 并 且 邻 居 状 态 为 NUD_FAILED (解析 失败 ) 或 者 该 邻居 距 最 近 一 次 被 使 用 
时 间 已 超过 参数 表 中 gc_staletime 的 值 ( 缺 省 为 eo 秒 ) , 则 可 以 作为 垃圾 回收 。 回收 完 毕 后 , 要 设置 下 
一 次 进行 回收 的 时 间 Ce timer 的 超时 时 间 ) , base_reachable_time 的 值 
(RA KA 30 秒 ) 的 - 再 除 以 hash_buckets 哈 希 表 中 的 项 数 。 也 就 是 ， 基 本 上 15 秒 左 右 会 把 整个 
arp tbl 绥 存 表 i an A. 

Siewuce tm Uist Ce Sne, 

proxy timer 是 一 个 关于 代理 ARP KEINE, proxy. queue 是 一 个 待 处 理 的 代理 ARP 数据 包 的 队列 ， 
每 次 定时 器 超时 ， 处 理 函 数 neigh_proxy_process 依次 检查 队列 中 每 一 个 代理 ARP BG (struct 
sk_buff)， 对 于 超时 ， 且 满足 相关 条 件 的 ,调用 proxy. redo 进行 处 理 。 有关 代理 ARP， 这 里 暂时 略 过 。 


struct timer_list 









































proxy timer; 


struct sk buff headproxy queue; 















































rwlock t lock; 

XT ERA EKRAR, hash rand 是 用 于 领 du hash buckets 的 一 个 随机 数 ，Last_rand 
日 于 记录 2m 即 上 次 为 parms 链表 中 每 个 节点 生成 reachable time 的 时 间 , reachable_time 
是 需要 被 定时 刷新 的 。 





unsigned long 
LBS 


记录 arp tbl 被 操作 次 数 的 一 


last_rand; 
hash_rnd; 


- 些 统计 数据 。 


struct neigh_statistics*stats; 


unsigned int 


> M 


hash_chain_gc; 





代码 段 4-32 neigh table 结构 
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neigh_table 





neigh_table *next 
. u32 (*hashY...) 
*parms 


**hash buckets 





arp tbl — —* 

























































































neigh parms «—— — neigh parms 
*next 个 > *next 
D eure a Z — =| 
ds neighbour < 一 个 一 | yay). neighbour — 
*next d >| *next 
(1) ra (2) 
Stee ps — < 














图 表 4-13neigh table 各 成 员 的 关系 图 











其 中 有 一 个 结构 叫 neigh_parms， 我们 之 前 在 配置 接口 地 址 的 时 候 (inetdev_init 函数 中 ) 曾经 
见 到 它 被 创建 ， 也 就 是 说 ， 此 结构 是 跟着 接口 走 。 有 多 少 个 接口 ， 就 有 多 少 个 neigh_parms， 它 存 
放 对 邻居 表 进 行 配置 的 信息 。 由 于 每 一 个 接口 的 邻居 系统 可 以 单独 配置 ， 这 样 就 非常 灵活 了 。 比 


如 A 接口 要 求 1 分 钟 刷新 一 次 邻居 表 , 而 B 接口 也 许 要 求 3 分 钟 刷 新 。 这 就 是 neigh_params 的 用 
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处 : 

1. struct neigh_parms 

Za if 

3. struct net_device *dev; 
4. struct neigh parms *next; 
57 int (*neigh_setup) (struct neighbour *); 
6. void (*neigh_destructor) (struct neighbour *); 
Te struct neigh table *tbl; 
8. 

oF void *sysctl_table; 
1L(0) 

qp int dead; 

TR atomic_t refcnt; 

13% struct rcu_head rcu_head; 
14. 

que int base reachable time; 
EG int retrans_time; 

ihe int gc_staletime; 

18s int reachable_time; 

I). int delay_probe_time; 

20 

2 int queue len; 

22 int ucast probes; 

23 int app probes; 

24 int mcast probes; 

25 int anycast delay; 

26 int proxy delay; 

27 int proxy_qlen; 

28 int locktime; 
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代码 段 4-33 neigh parms 结构 














在 arp init 中 调用 了 neigh_table_init， 参 数 为 arp_tbl， 该 结构 定义 如 下 : 
















































































1. struct neigh_table arp_tbl = { 
Bo .family = AF_INET, 
Sh .entry size = Sizeof(struct neighbour) + 4, 
4. .key len = 4, 
5 .hash = arp_hash, 
on -CODSLEUCLOP = -arpleconstructor, 
Abs aono» edo Modo Neo struct  neigh parms *neigh parms alloc(struct 
on .id = "arp_cache", net_device *dev, 
在 这 里 就 初始 化 了 neigh_parms 结构 struct neigh_table *tbl) 
om .parms = { { 
tbl 就 指向 arp_tbl 自己 ， 在 绝 大 部 分 情况 ， 下 面 struct neigh parms *p = kmalloc( 
这 个 结构 的 值 会 全 部 复制 到 接口 自己 的 neigh parai 
中 ， 如 右边 的 函数 所 做 。 a ; 
10. Rigi = &arp tbl, memcpy (p, &tbl-»parms, sizeof(*p)); 
TES .base reachable time - 30 * HZ, DEBE = ERLE 
dq .retrans time -1 * HZ, p 
135 .gc staletime =60 * HZ, if (dev) 1 
14. acon a ee = BO * B. p->dev = dev; 
Hebe -delay_probe_time =5 * HZ, } 
i6. .queue len - c p-»sysctl table = NULL; 
17. .ucast probes =3, p->next = tbl->parms.next; 
18. .mcast probes =3, tbl-»parms.next = p; 
19. .anycast delay -1 * HZ, } 
207 .proxy delay = (8 * HZ) / 10, Pee pe 
Allg .proxy qlen = 64, 
D NS lo ke = dL ot Jg 
2S « he 
24, "gcnere == SiO) HZ 
229.5 Sqcathneeshn IAs, 
26. .gc thresh2 = kay eee 
fai Ss -gc_thresh3 = 1024, 
Deyn jhe 





代码 段 4-34 neigh table 结构 





ARP KEF S48 1h) arp table 链 的 指针 C arp table 向量)。 缓 存 这 些 表 项 可 以 加 速 对 它 
们 的 访问 ,每 个 表 项 用 IP 地 址 的 最 后 两 个 字 节 来 生成 索引 ， 然后 就 可 以 查找 表 链 以 找到 正确 的 表 
Ty. Linux 也 以 hh cache 结构 的 形式 来 缓存 arp_table 项 的 预 建 的 硬件 头 。 

请 求 一 个 IP 地 址 解析 并 且 没 有 相应 的 ”arp_table 项 时 ，ARP 必须 发 送 一 个 ARP 请 求 。 它 
ERM sk_buff 队列 中 ”生成 一 个 新 的 ”arp_table 项 ， sk buff 包含 了 需要 进行 地 址 解析 的 网 
络 包 。 发 送 ARP 请 求 时 运行 ARP 定时 器 。 如 果 没 有 响应 ，ARP 将 重 试 几 次 ， 如 果 仍 然 没 有 响应 ， 
ARP 将 删除 该 arp_table 项 。 同 时 会 通知 队列 中 等 待 IP 地 址 解析 的 sk buff 结构 ， 传 送 它们 
的 上 层 协 议 将 处 理 这 一 失败 。UDP 不 关心 丢 包 ， 而 TCP 则 会 建立 TCP XEBEETT OE TE. WIR IP Hh 
址 的 所 有 者 返回 了 它 的 硬件 地 址 ， 则 arp table 项 被 标记 为 完成 ， 队 列 中 的 sk buff 将 被 删除 ， 
传输 动作 继续 。 硬 件 地 址 被 写 到 每 个 sk. buff 的 硬件 头 ! 

ARP 协议 层 必须 响应 ARP 请 求 。 它 注册 它 的 协议 类 型 (ETH _P_ARP)， 生 成 一 个 ”packet_ type 
结构 。 这 表示 它 将 检查 网 络 设备 收 到 的 所 有 ARP 包 。 与 ARP 应 答 一 样 ， 这 包括 ARP 请 求 。 用 保 
存在 接收 设备 的 ”device 结构 中 的 硬件 地 址 来 生成 ARP 应 答 。 

网 络 拓扑 结构 会 随时 间 改 变 ， 耳 地 址 会 被 重新 分 配 不 同 的 硬件 地 址 。 例 如 ， 一 些 拨号 服务 为 
每 一 次 新 建 的 连接 分 配 一 个 IP 地址。 为 了 使 ARP 表 包 含 这 些 数据 项 ，ARP 运行 一 个 周期 性 的 定 
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时 器 ， 用 来 查看 所 有 的 arp table 项 中 哪 一 个 。 






































neigh table init 在 内 核 中 有 多 处 , 但 仔细 研究 大 多 是 和 IP 网 没有 关系 的 。 所 以 唯一 和 卫 网 有 











关系 的 初始 化 是 在 arp. init 函数 中 调用 的 ， 函 数 代码 如 下 : 

















1. void neigh_table_init (struct neigh_table *tbl) 




















DINE 
IEA tbl wiz arp tbl 
S struct neigh table *tmp; 
4. 
S5 neigh table init no netlink(tbl); 
6. 
neigh tables 是 一 个 全 局 指针 ， 如 果 系 统 中 只 有 IP 协议 栈 ， 那 么 就 只 有 一 个 arp tbl 
ws for (tmp = neigh_tables; tmp; tmp = tmp->next) { 
9o if (tmp->family == tbl->family) 
ON break; 
Os } 
itil. tbl-»next = neigh tables; 
lg. neigh tables = tbl; 
13s _} 





代码 段 4-35 neigh_table_init 函数 


dev. add pack 是 一 个 非常 重要 的 函数 , 在 arp, init 中 传 入 的 参数 为 arp_packet type; ip_ 
也 调用 了 它 ， 给 它 传 入 的 参数 是 ip_packet_type， 这 个 变量 的 类 型 是 packet_ type: 

当 一 个 邻居 刚刚 被 创建 
被 加 入 到 arp_tbl 的 哈 希 表 hash, buckets F, 但 它 还 没有 被 解析 ， 其 成 员 ha( 邻 居 的 硬件 地 址 
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init 中 


其 状态 是 NUD_NONE， 此 时 ， 邻 居 被 创建 出 来 ， 并 根据 其 IP 地 址 


) 为 空 


直到 向 这 个 邻居 发 送 IP 数据 报 ， 并 且 发 送 流程 到 达 网 络 层 的 最 后 一 个 发 送 函 数 ip_finish_output2 
时 , 调用 邻居 的 output 成 员 函 数 , 一 般 这 个 函数 是 neigh_resolve_output( 根 据 type 的 不 同 会 略 有 不 



































同 )。 它 会 先进 行 ARP 解析 ， 然 后 把 IP 数据 报 发 往 正确 的 邻居 。 
4.7.3.0. 开始 ARP 状态 机 










































































前 不 为 零 ， 所 以 进行 解析 ， 首 先 置 邻 居 的 成 员 probes 为 parms 的 ucast_probes, ik W 3, 
该 邻居 等 于 是 已 经 尝试 了 3 次 了 ， 男 外 还 只 能 多 3 次 (mcast_probes)， 即 该 邻居 的 解析 最 多 






































因为 当前 状态 是 NUD_NONE，neigh_resolve_output 首先 判断 parms 的 成 员 mcast_probes 加 
上 app probes 的 值 ， 这 两 个 参数 表示 ARP 解析 时 尝试 的 次 数 ，mcast_probes HAHA 3, 
app probes 是 0， 如 果 它 们 的 和 为 零 ， 则 不 作 ARP 解析 尝试 ， 直 接 将 状态 置 为 NUD_FAILED。 当 


这 样 ， 
尝试 3 


次 ， 如 果 3 次 不 成 功 ， 则 失败 ， 结 束 。 然 后 将 状态 置 为 NUD_INCOMPLETE， 表 示 正 在 解析 中 ， 
并 把 待 解 析 的 socket 缓冲 skb 放 入 arp. queue 队列 中 ， 然 后 启动 邻居 的 定时 器 开始 ARP 解析 。 



































定时 器 处 理 函 数 neigh timer handler 首先 确定 下 次 的 超时 时 间 ( 如 果 这 次 解析 没有 成 妃 

















Jl) Aj 


前 时 间 加 上 parms 的 成 员 retrans time 的 值 〈 缺 省 设置 为 1 秒 )。 所 以 ，ARP 解析 的 发 包 超时 时 间 
是 1 秒 ， 连 续 尝试 3 Ko ARP 解析 是 通过 ops 的 成 员 函 数 solicit 去 做 的 ， 该 成 员 函 数 指针 指向 的 























arp. solicit 函数 ，arp_solicit 会 实际 发 送 ARP KE. 











1 Static void arp_solicit (struct neighbour *neigh, struct sk buff *skb) 
2 { 

oe u32 saddr = 0; 
4. u8 *dst ha = NULL; 
5 

6 





struct net device *dev = neigh-»dev; 

u32 target = *(u32*)neigh-»primary. key; 
根据 前 面 neigh_event_send ARX, probes 等 于 3 

int probes = atomic read(&neigh-»probes); 

struct in_device *in_dev = in_dev_get (dev) ; 









































0 switch (IN DEV ARP ANNOUNCE(in dev)) { 
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Ti 
12. 


13. 
14. 
TSS 


1L) c 


L 
JL c 
19. 
2). 
Balle 
p 
po 
24. 
25. 
PIE 


Bille 


29k 


29 


30. 


Silke 


92 


3S 


34. 
EISE 
36. 
Sie 


3S 
39). 


40. 


41. 


42. 


43. 


44. 


default: 
case 0: /* By default announce any local IP */ 
if (skb && inet addr type(skb-»nh.iph-»5saddr) == RIN LOCAL) 
saddr = skb-»nh.iph-»saddr; 
break; 
case 1: /* Restrict announcements of saddr in same subnet */ 
if (!skb) 
break; 
saddr = skb-»nh.iph-»saddr; 
if (inet addr type(saddr) == RTN LOCAL) { 


/* saddr should be known to target */ 
if (inet addr onlink(in dev, target, saddr)) 
break; 
} 
saddr = 0; 
break; 
case 2: /* Avoid secondary IPs, get a primary/preferred one */ 
break; 
} 
if (!saddr) 
saddr = inet select addr(dev, target, RT SCOPE LINK); 
ucast probes RA 3 
if ((probes -= neigh-»parms-»ucast probes) < 0) { 
if (!(neigh-»nud state&NUD VALID)) 
printk(KERN DEBUG "trying to ucast probe in NUD_INVALID\n") ; 
把 目的 地 址 指向 邻居 的 mac 地 址 
dst ha = neigh-»ha; 
) else if ((probes -= neigh-»parms-»app probes) < 0) ( 
#ifdef CONFIG ARPD 
neigh app. ns (neigh) ; 
#endif 
return; 
} 
发 送 BRP 请 求 报 文 


45. 


46. 


arp send(ARPOP REQUEST, ETH P ARP, 


target, dev, saddr, dst ha, dev-»dev addr, NULL); 

















E 














代码 段 4-36 arp solicit 函数 






















































































































































































“PAI, arp send 调用 arp create 函数 ， 它 不 仅 申请 skb， 还 要 把 这 个 skb 初始 化 ， 其 值 主 要 
据 dev 来 获取 , 要 注意 的 是 dev broadcast 是 一 个 全 1 的 值 , 即 OxFFFFFFFF, 它 是 在 ether. setup 
数 中 赋值 。 

要 判断 该 设备 

es 是 否 具备 ARP 的 要 求 
arp_create 

alloc_skb 在 ether_setup 中 设置 为 全 1 
src_hw = dev->dev_addr 
dest_hw = pacc d 
arp->ar_hrd = ARPHRD ETHER 

arp xmit arp-»ar pro = ETH P IP 























dev queue xmit 











图 表 4-14 arp. send 函数 调用 树 





Linux2.6 协议 栈 源 代码 分 析 
如 图 中 说 述 , 判断 设备 是 否 具备 ARP 的 条 件 只 需 检查 dev flags 是 否 是 NOARP 的 , 如 果 是 ， 



































就 直接 返回 ， 这 种 设备 就 是 我 们 知道 的 X25 设备 和 ISDN 设备 等 等 。 到 这 里 ， 一 个 ARP 报 文 就 发 
送 到 设备 驱动 了 。 从 叙述 的 顺序 来 看 ， 我 得 介绍 驱动 层 的 实现 了 。 不 过 ,为 了 让 话题 集中 在 ARP, 
我 必须 避 开 设备 发 送 的 机 理 
制 。 同 样 的 道理 ， 我 们 先 不 说 主机 是 如 何 将 报 文 收 到 协议 栈 来 的 ， 大 家 记 住 ARP 接收 报 文 的 第 
个 函数 是 arp rev 就 可 以 了 。 
























































TH 











重点 在 于 谈 ARP 参与 者 之 间 交 互 以 及 ARP 与 邻居 子 系统 交互 的 机 

















MR 





好 ， 发 送 和 接收 的 底层 实现 我 们 就 放 到 后 面 去 说 。 现 在 来 看 看 当主 机 A 发 送 报 文 到 主机 B, 
































这 时 主机 B 用 arp. rev 函数 把 报 文 收 了 上 了 ， 它 该 做 些 什么 








arp_rcv 























arp_process 








图 表 4-15 arp rcv 函数 调用 树 











抬头 去 尾 ， 该 函数 调用 了 arp process 函数 ， 我 们 应 该 把 重点 放 在 这 个 函数 身上 。 




















OMIA I 2S 


jp pÀBbbmpbmpmpwn.üÁwbp! 
FPOWUMIDUAWNHEO- 





NN F 


.o/* 


Eae abewE Vu oes [Srt Sk buff *skb) 
{ 
struct net device *dev = skb-»dev; 
struct in device *in dev = in dev get (dev); 
struct arphdr *arp; 
unsigned char *arp. ptr; 
Struct rtable *rt; 
unsigned char *sha, *tha; 
USA aj, Eos 
ul6 dev type = dev->type; 
int addr type; 
struct neighbour *n; 





. /* arp rcv below verifies the ARP header and verifies the devic 


* is ARP'able. 
2 


arp = skb->nh.arph; 


switch (dev_type) { 




















default: 
如 果 不 是 为 IP 协议 或 者 两 个 接口 类 型 不 匹配 ， 则 必须 退出 
aie (Sole ue oe = lenEcous (EMASE ENE) | | 
htons(dev type) != arp->ar_hrd) 
goro oun; 
break; 





. /* 检查 消息 类 型 */ 





if (arp->ar_op != htons(ARPOP REPLY) && 
arp-»ar op != htons (ARPOP REQUEST)) 
qoo QUU 


* Extract fields 
2 
arp ptr- (unsigned char *) (arp-*1); 
sha = arp ptr; 
arp ptr += dev-»addr len; 
memcpy(&sip, arp ptr, 4); 
arp ptr += 4; 
tha = arp ptr; 
arp ptr += dev-»addr len; PRA 












































41 47 ~48 行 要 完成 的 工作 
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qu memcpy(&tip, arp ptr, 4); 

44. /* 

45. * Check for bad requests for 127.x.x.x and requests for multicast 
46. * addresses. If this is one such, delete it. 








































































































ay. c 
48. if (LOOPBACK(tip) || MULTICAST(tip)) 
49. goto out; 
Oe 
Bile 7 
52. * Process entry. The idea here is we want to send a reply if it is a 
53. * request for us or if it is a request for someone else that we hold 
54. * a proxy for. We want to add an entry to our cache if it is a reply 
55. * to us or if it is a request for our address. 
56. * (The assumption for this last is that if someone is requesting our 
57. * address, they are probably intending to talk to us, so it saves time 
58. * if we cache their address. Their address is also probably not in 
59. * our cache, since ours is not in their cache.) 
60, = 
61. * Putting this another way, we only care about replies if they are to 
62. * us, in which case we add them to the cache. For requests, we care 
63. * about those for us and those for our proxies. We reply to both, 
64. * and in the case of requests for us we add the requester to the arp 
65. * cache. 
66, w 
GE 
68. /* Special case: IPv4 duplicate address detection packet (RFC2131) */ 
GI stis emus ce (0) qd 
VO if (arp->ar_op == htons(ARPOP REQUEST) && 
Tike inet addr type(tip) == RTN LOCAL && 
yu larp ignore(in dev,dev,sip,tip)) 
Tar arp_send(ARPOP_REPLY,ETH_P_ARP, 
74. tip, dev,tip, sha, dev->dev_addr, dev->dev_addr) ; 
S goto out; 
VIC } 
Vs 
epe if (arp-»ar op == htons(ARPOP REQUEST) && 
UD monnen cemoe (skb, tip, sip, 0, dev) == 0) { 

能 够 进入 这 段 代 码 说 明 此 时 这 是 一 个 ARP 的 接收 方 ， 正 常情 况 下 它 收 到 了 一 个 AR 的 请 求 报 文 ， 并 且 在 
80 . rt = (struct rtable*)skb-»dst; 
Sill. addr_type = rt-»rt type; 
See 
B3. if (addr type == RTN LOCAL) { 

发 现 该 请 求 报 文 的 目的 地 址 正 是 本 主机 
84. n = neigh event ns(&arp tbl, sha, &sip, dev); 
SIDE abi (uon) di 
86. int dont send - 0; 
SN 
88. if (!dont send) 
39) « dont_send |= arp ignore(in dev,dev,sip,tip); 
(0) if (!dont send && IN DEV ARPFILTER(in dev)) 
Ql dont_send |= arp_filter(sip,tip, dev) ; 
92% if (!dont_send) 

发 送 ARP 回应 给 对 方 主 机 
ger arp send(ARPOP REPLY,ETH P ARP, 
94, Sip,dev,tip,sha,dev-»dev addr,sha); 
95. neigh release (n); 
9X9 ) 
发 送 回应 之 后 ， 立 即 退出 
au COTO Suc 
98. } else if (IN DEV. FORWARD (in dev)) { 
下 面 几 行 代码 是 要 求 用 proxy ARP 的 ， 这 超过 了 本 书 的 范围 ,所 以 省 略 

Sem 0o TB/BiéSa iet 
100. goto out; 
ICONS } 
1,002 « } 
103}, } 
104. 
HOSE /* Update our ARP tables */ 

















当 收 到 的 报 文 不 是 REQUEST 时 才 会 继续 走 下 去 ， 先 查询 邻居 ， 内 部 不 要 要 创建 neigh， 因 为 最 后 一 个 参 
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n = __neigh_lookup(&arp_tbl, &sip, dev, 0); 


if (ipv4_devconf.arp_accept) { 
收 到 一 个 不 是 主动 要 求 的 ARP 回应 报 文 ， 缺 省 情况 下 不 会 进入 本 段 
/* Unsolicited ARP is not accepted by default. 
It is possible, that this option should be enabled for some 
devices (strip is candidate) 





























ued 
if (n == NULL && 
arp-»ar op == htons(ARPOP REPLY) && 
inet addr type(sip) == RTN_UNICAST) 
n =  neigh lookup(&arp tbl, &sip, dev, -1); 
} 
aie (im) 4 




















如 果 查 到 了 ， 就 设置 对 端 是 REACHABLE 的 ， 然 后 更 新 自己 的 邻居 系统 
int state = NUD REACHABLE; 
int override; 
































/* If several different ARP replies follows back-to-back, 
use the FIRST one. It is possible, if several proxy 
agents are active. Taking the first reply prevents 
arp trashing and chooses the fastest router. 

wd 


override = time_after(jiffies, n->updated + n-»parms-»locktime); 


/* Broadcast replies and request packets 
do not assert neighbour reachability. 
74 
if (arp-»ar op !- htons(ARPOP REPLY) || 
Skb-»5pkt type != PACKET HOST) 
State = NUD STALE; 





neigh update(n, sha, state, override ? NEIGH UPDATE F OVERRIDE : 0); 
neigh release (n); 


out: 
az (aua CENA) 
in_dev_put (in_dev) ; 
kfree skb(skb); 
return 0; 





代码 段 4-37 arp process 函数 





我 们 只 关注 收 到 的 ARP 回应 包 。ARP 回应 包 中 的 发 送 端 IP 地 址 即 为 邻居 的 IP 地 址 ， 我 们 以 

















这 个 IP 地 址 为 主键 到 ARP RF arp_tbl 中 去 寻找 这 个 邻居 节点 (hash_buckets 成 员 )， 因 为 在 发 送 
ARP 请 求 之 前 ， 进 行 邻居 绑 定 的 时 候 ， 我 们 已 经 建立 了 一 个 未 被 解析 的 邻居 ， 所 以 这 次 寻找 肯定 


H, 
Fe 


成 


















































功 的 ， 如 果 没 有 找到 ， 则 直接 放弃 ， 不 作 处 理 。 
找到 了 这 个 邻居 ， 我 们 就 要 用 新 的 ARP [BUS GLO AA 





b 





jx AUS UAR. (HS T EIER 
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= 
Sy 


























J BOL EAS Mil, SRP), RAER EDOSUSTISE HUE. parms-»locktime(t 4? HA 1 秒 ) 后 







































































才 允 许 再 次 刷新 ， 这 是 一 个 可 配置 的 项 ， 可 通过 修改 文件 /proc/sys/net/ipv4/neigh/ 设 备 名 /locktime 





行 





在 等 待 下 一 次 重 发 ARP 请 求 )， 把 定时 器 修改 到 距 当 前 时 间 parms->reachable_time( 初 始 设 置 为 30 


秒 ， 实 际 值 在 15-45 秒 之 间 随 机 变动 )。 并 把 新 的 MAC 地 址 复制 到 邻居 的 成 员 ha 中 。 











E. 
最 终 会 调用 neigh update 去 更 新 邻居 子 系统 。 新 的 邻居 状态 为 NUD_REACHABLE， 该 函数 























中 首先 更 新 邻居 的 成 员 数 据 confirmed 和 updated 为 当前 时 间 ， 然 后 删除 邻居 的 定时 器 (定时 器 正 
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/* 通用 的 更 新 函数 . 
-- lladdr 是 新 的 11addr， 也 可 以 是 NULL, 











-- new 
== iclags 


NEIGH_UPDAT 








新 的 状态 . 

















NEIGH UPDATE F ADMIN: 意味 着 此 次 更 新 是 


rE F OVERRIDE: 如 果 不 相 同 ， 人 允许 覆盖 给 存在 的 lladdr, 
NEIGH_UPDATE_F_WEAK_OVERRIDE: will suspect existing "connected" 





lladdr instead of overriding it 


if it is different. 


It also allows to retain current state 


if lladdr is unchanged. 












































管理 员 触 发 的 














NEIGH_UPDATE_F_OVERRIDE_ISROUTER allows to override existing 


NTF ROUTER flag. 


NEIGH UPDATE F ISROUTERindicates if 





CI POUSE 























调用 者 必须 在 入 口 控制 引用 计数 





uf 


int neigh update(s 




















u32 flags) 


{ 
mande: 
int err 


, 


#ifdef CONFIG ARPD 


le AO 
#endif 

SErUCE 

int upd 


dev 


abes; = Op 


net_device *dev; 
ate_isrouter = 0; 





= neigh->dev; 





the neighbour is known as 


truct neighbour *neigh, const u8 *lladdr, u8 new, 


old = neigh-»nud state; 
OTE = —EPERM; 
if (!(flags & NEIGH_UPDATE_F_ADMIN) && 


(old & (NUD_NOARP | NUD_PERMANENT) ) ) 
goto our; 


ax (D (a 


ew & NUD VALID)) { 


neigh del timer (neigh) ; 


abir 


(old & NUD. CONNECTED) 
neigh suspect (neigh); 


neigh-»nud state = new; 


CCE 


= 0; 


#ifdef CONFIG_ARPD 
notify = old & NUD_VALID; 


#endif 


dgoro QUES 


} 


/* Compare new lladdr with cached one */ 
if (!dev->addr_len) { 


/* First case: 


lladdr = neigh->ha; 


} else 
/* The 


and a new address is proposed: 


abit (iL ileyelelic)) d 


device needs no address. */ 


second case: if something is already cached 


— compare new & old 
they are different, check override flag 


= akg 
“y 
LE 


} else 


/* No address is supplied; 
otherwise discard the request. 


use 
MA 


(Saag 


((old & NUD_VALID) && 


'memcmp (lladdr, neigh->ha, 


lladdr = neigh->ha; 
{ 


IIE 


= -EINVAL; 


dev->addr_len) ) 


if we know something, 
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62). 
UO). 
TR 
f 
Uc 
74. 
US: 
76. 
Us 
mos 
WD 
80. 
ONE 
82. 
83. 
84. 
85. 
86. 
97 e 
88. 
BQ. 
90. 
OL c 
JZ 
MB 
94. 
95 c 
96. 
91 c 
NS} c 
99). 


100. 
ILL. 
LOZ - 
OSR 
104. 
OSS 
ILO 
LO - 
108. 
OE 
WOR 
aral, 
IIL - 


111,3) c 
114. 
1,5. 
ILL c 
LILY. 
i18 
1109. 
LAO. 
121; 
1227 
LAS. 
124. 
125. 
126. 
127. 
LAS 
TAOX 
190 
TI 
T327 
JL SIS) 
134. 
LSS - 
135 


} 


if 


aise CICING e 


NUD_VALID) ) 


goto out; 
lladdr = neigh->ha; 


(new & NUD_CONNECTED) 
neigh->confirmed = jiffies; 








neigh->updated = jiffies; 


/* If entry was valid and address is not changed, 
do not change entry state, if new one is STALE. 


rA 


err = 0; 
update_isrouter 
(old & NUD_VALID) { 


Es 


atit  ((dLiLewelele 














= flags & NEIGH UPDATE F OVERRIDE ISROUTER; 





l= neigh->ha && ! (flags & NEIGH UPDATE F OVERRIDE)) { 





update isrouter - 0; 
if ((flags & NEIGH UPDATE F WEAK OVERRIDE) && 





(old & NUD CONNECTED)) { 
lladdr = neigh->ha; 
new = NUD_STALE; 
} else 
qoto- ots 
} else { 
if (lladdr == neigh->ha && new == NUD STALE && 








((flags & NEIGH_UPDATE_F_WEAK_OVERRIDE) | | 
(old & NUD_CONNECTED) ) ) 















































new = old; 
} 
if (new != old) { 
neigh_del_timer (neigh) ; 
if (new & NUD_IN_TIMER) { 
neigh_add_timer(neigh, (jiffies + 
((new & NUD_REACHABLE) ? 
neigh-»parms-»reachable tim 
(OD Hs 
} 
neigh-»nud state = new; 
} 
if (lladdr != neigh->ha) { 
读者 们 请 注意 了 ， 这 次 内 存 拷贝 就 是 回答 上 一 节 的 问题 : neighdha 是 从 lladdr 而 来 。 
memcpy(&neigh-»ha, lladdr, dev-»addr len); 
neigh update hhs (neigh); 
if (!(new & NUD CONNECTED)) 
neigh->confirmed = jiffies - 


(neigh-»parms-»base reachable time << 1); 


#ifdef CONFIG ARPD 


notify 


#endif 


} 
if (new == 
goto ou 


= 1; 


old) 
t; 


if (new & NUD_CONNECTED) 


neigh_connect (neigh); 
else 
neigh_suspect (neigh); 
nef ae (ISI HE SENI UST) NR VZD) P) 
struct sk butt "*skb; 
/* Again: avoid dead loop if something went wrong */ 
while (neigh-»nud state & NUD VALID && 
(skb =  skb dequeue(&neigh-»arp queue)) != NULL) { 
struct neighbour *n1 = neigh; 
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LST a /* On shaper/eql skb-»dst-»neighbour != neigh :( */ 
1562 e if (skb->dst && skb-»dst-»neighbour) 
1139) ni Skb-»dst-»neighbour; 
































这 时 调用 neigh_resolve_output， 这 已 经 是 第 二 次 调用 了 。 






































140. nl-»output (skb) ; 
141. } 
142. skb_queue_purge (&neigh->arp_queue) ; 
143. } 
144. out: 
qus if (update isrouter) { 
146. neigh->flags = (flags & NEIGH UPDATE F ISROUTER) ? 
LAT (neigh->flags | NTF ROUTER) 
148. (neigh->flags & ~NTF_ROUTER) ; 
149. } 
150 #ifdef CONFIG_ARPD 
Tks) iL & if (notify && neigh->parms-—>app_probes) 
152 « neigh app notify (neigh); 
153 « #endif 
154. return err; 
ISS. } 
代码 段 4-38 neigh update 函数 
其 中 调用 了 neigh, suspect: 
1. static void neigh_suspect (struct neighbour *neigh) 
Qo. Vat 
Se struct hh_cache *hh; 
4. 
5: NEIGH PRINTK2("neigh %p is suspected.\n", neigh); 
Ge 
hes neigh->output = neigh-»ops-»output; 
8. 
op for (hh = neigh->hh; hh; hh = hh->hh_next) 
OF hh->hh_output = neigh-»ops-»output; 
11. ) 





代码 段 4-39 neigh suspect 函数 
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ip_finish_output2 

















dst->neighbour->output 








4 一 
neigh_resolve_output | 


neigh_event_send 




















__neigh_event_send 





返回 Start timer 








neigh_timer_handler 














neigh->ops->solicit 


Arprequest __ | 









































— | Amp reply-——-—— — 
arp process ”一 一 一 一 
neigh_update 
n1->output 
neigh hat 
neigh_hh_init 

















neigh->ops->queue_xmit | 


“一 真正 的 报 文 。 


图 表 4-16 ping 操作 的 基本 流程 


48 ”到 达 设 备 驱动 层 












































4.8.1 数据 链 路 层 帧 格式 
按 功 能 和 兼容 性 划 这 些 数据 帧 格式 对 应 的 协议 列举 如 下 : 
表格 4-2 
Number Topic 
802.1 LAN 结构 和 概述 
802.2 逻辑 链 路 控制 
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802.3 以 太 网 

802.4 令 牌 总 线 

802.5 令 牌 环 

802.7 关于 宽带 技术 的 技术 顾问 组 
802.8 关于 光纤 技术 的 技术 顾问 组 
802.9 同步 LANs (实时 应 用 ) 
802.10 虚拟 LANs 和 安全 

802.11 THÈ LANS 














环 回 接口 的 邻居 状态 为 NUD_NOARP， 属 于 NUC CONNECTED [i (42, ML, hh output 
指向 ops->hh_output, hh 生成 后 ， 目 的 入 口 dst entry 的 成 员 hh 也 指向 这 个 hh， 下 一 次 在 发 送 数 
据 报时 ， 发 送 函 数 ip_finish_output2 会 判断 目的 入 口 的 hh 成 员 不 为 NULL， 所 以 直接 把 
dst_entry->hh->hh_data 揽 贝 成 以 太 网 头 ， 然 后 调用 hh_output( 实 际 函数 为 dev_queue_xmit) 发 送 数 
据 报 ， 不 再 需要 构建 以 太 网 头 。 









































6 6 2 46~1500 字 节 4 
DMAC SMAC TYPE Payload TYPE 

2 

0800 IP 数据 报 Hj 
2 28 

0806 ARP 请 求 / 应 答 | 
2 28 

8035 RARP 请 求 / 应 答 








图 表 4-17 以 太 网 层 数据 报 文 格式 





下 面 这 个 函数 是 设备 抽象 层 提供 的 发 送 报 文 的 函数 。 卫 层 或 者 其 他 更 低层 的 协议 都 可 以 


使 用 这 个 函数 发 送 报 文 ， 因 为 它 是 设备 无 关 的 。 





SOI OY ON 5 0C) N29 E25 
Ho mw iS S eu 


ES 


+ + F OR OR Ok X OX F Xo Xo ox 


+ 


dev queue xmit - transmit a buffer 
@skb: buffer to transmit 


Queue a buffer for transmission to a network device. The caller must 
have set the device and priority and built the buffer before calling 
this function. The function can be called from an interrupt. 





A negative errno code is returned on a failure. A success does not 
guarantee the frame will be transmitted as it may be dropped due 
to congestion or traffic shaping. 


*ox F OR F X X F X 


I notice this method can also return errors from the queue disciplines, 
including NET XMIT DROP, which is a positive value. So, errors can also 
be positive. 


Regardless of the return value, the skb is consumed, so it is currently 
difficult to retry a send to this method. (You can bump the ref count 


before sending to hold a reference for retry if you are careful.) 


When calling this method, interrupts MUST be enabled. This is because 
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24. 
25. 
26. 
Bis 
28. 
29. 
SOF 
Sule 
SZ c 
295 
34. 
35. 
36. 
SE 
38. 
EIE 
40. 
ule 
4c 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
SUR 
Sic 
52 
S3. 
54. 
Si3c 
56. 
Bbc 
58. 
597 
60. 
Gil. 
62. 
63. 
64. 
65. 
66. 
Oc 
68. 
69. 
Lor 
T4. 
32 « 
We 
74. 
VS 
TG 
arg s 
AES c 
qe 
80. 
Sal c 
82. 
83. 
84. 
85. 
86. 
OE 
88. 
32. 
90. 
Oe 
92r 


wr the BH enable code must have IRQs enabled so that it will not deadlock. 


--BLG 
iA 


int dev queue xmit(struct sk buff *skb) 


{ 





struct net device *dev = skb-»dev; 
Siesbler Oyehise “Cig 
int rc = -ENOMEM; 


/* GSO will handle the following emulations directly. 


if (netif needs gso(dev, skb)) 
goto gso; 


if (skb_shinfo(skb)->frag_list && 
!(dev->features & NETIF F FRAGLIST) && 
. .Skb linearize(skb)) 
goto out kfree skb; 


/* Fragmented skb is linearized if device does not support SG, 
* or if at least one of fragments is in highmem and device 


* does not support DMA from it. 
a 
if (skb shinfo(skb)-»nr frags && 


(! (dev->features & NETIF F SG) || illegal highdma(dev, skb)) && 


. Skb linearize(skb)) 
goto out kfree skb; 


/* If packet is not checksummed and device does not support 
* checksumming for this protocol, complete checksumming here. 


iy 
if (skb-»ip summed == CHECKSUM HW && 
(! (dev->features & NETIF F GEN CSUM) && 
(! (dev->features & NETIF F IP CSUM) || 
skb-^protocol !- htons (ETH P_mP) ))) 
if (skb_checksum_help(skb, 0)) 
goto out_kfree_skb; 





gso: 
Spin lock prefetch(&dev-»queue lock); 











/* 下 面 代码 要 关闭 软 中 断 ， 并 且 停止 抢占 
“y 


rcu read lock bh(); 




















/* Updates of qdisc are serialized by queue lock. 





more references to it. 


also serializes access to the device queu 





+ ox RS + F X X F F X 





q = rcu dereference (dev-»qdisc); 
#ifdef CONFIG NET CLS ACT 


Skb-»5tc verd = SET TC AT(skb-»tc verd,AT EGRESS); 


#endif 
if (q->enqueue) { 
/* Grab device queue */ 
Spin lock(&dev-»queue lock); 


rc = q->enqueue(skb, q); 


qdisc run (dev); 


Aoi 


The struct Odisc which is pointed to by qdisc is now 
rcu structure - it may be accessed without acquiring 
a lock (but the structure may be stale.) The fr 
qdisc will be deferred until it's known that there are no 


a 


ing of the 


If the qdisc has an enqueue function, we still need to 
hold the queue lock before calling it, since queue lock 
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dq Spin unlock(&dev-»queue lock); 

94. re = re == NET XMIT BYPASS 7 NEI XMIT SUCCESS: t rc; 

SOS GIO EG. Outer 

OG } 

ore 

98. /* The device has no queue. Common case for software devices: 
MOS loopback, all the sorts of tunnels... 

100. 

1L()3L « Really, it is unlikely that netif tx lock protection is necessary 
102. here. (f.e. loopback and IP tunnels are clean ignoring statistics 
OSs counters.) 

104. However, it is possible, that they rely on protection 
105. made by us here. 

106. 

LOT. Check this and shot the lock. It is not prone from deadlocks. 
OSs Either shot noqueue qdisc, it is even simpler 8) 

LOS S 

LO, if (dev->flags & IFF UP) { 

aval int cpu = smp_processor_id(); /* ok because BHs are off */ 
132 « 

gle if (dev->xmit_lock_owner != cpu) { 

114. 

qe HARD TX LOCK(dev, cpu); 

ILL 

Jab 7 if (!netif queue stopped(dev)) { 

ALS c ie = Of 

EUN if (!dev hard start xmit(skb, dev)) { 

120. HARD TX UNLOCK (dev); 

iLZE o goto out; 

1122: } 

MAS) } 

124. 

WAS } 

120 

WAI } 

1.218 - 

4.226) - rc = -ENETDOWN; 

130. 

il Sb - out kfree skb: 

142 kfree skb(skb); 

T327 return rc; 

TSAN Outi 

ISIS rcu read unlock bh(); 

1:515 - return rc; 

1137 c } 














代码 段 4-40 dev_queue_xmit 函数 


























dev hard start xmit 里 面 比较 简单 ， 调 用 其 参数 dev 所 指向 的 hard_start_xmit 函数 指针 。 
4.8.2 Loopback 设备 的 发 送 过 程 
我 们 注意 到 loopback 设备 在 初始 化 的 时 候 挂 接 了 loopback_dev， 并 且 把 实际 发 送 函 数 定义 为 
这 样 : .hard_start_xmit = loopback_xmit。 即 dev hard start xmit 调用 了 loopback_xmit 函数 。 
那么 前 面 一 节 提 到 的 dev hard_start_xmit 就 是 是 loopback_xmit 函数 


























ie fs 

ua * The higher levels take care of making this non-reentrant (it's 
3 * called with bh's disabled). 

4. i 

5. static int loopback xmit(struct sk buff *skb, struct net device *dev) 
(S. di 

Pe struct net_device_stats *lb_stats; 

9 

oF Skb orphan(skb); 

Oe 

Tabs skb->protocol = eth type trans(skb,dev); 

27 skb->dev = dev; 
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dev-»last rx = jiffies; 


lb stats - 
lb stats-» 
lb stats-» 
lb stats-» 
lb stats-» 


&per cpu(loopback stats, get cpu()); 
rx bytes += skb-»len; 
tx bytes = lb stats-»rx bytes; 
rx packets-t; 
tx packets = lb stats-»rx packets; 





报 文 直接 发 送 到 接收 函数 中 了 





netif_rx(s 


return (0); 


kia) p 





ix BA 


代码 段 4-41 loopback xmit 函数 

















好 啦 ， 读 者 们 ， 我 们 将 要 拉 开 接收 过 程 分 析 的 大 幕 了 1 
4.9 ”从 中 断 到 路 由 系统 


先 来 看 这 么 一 副 图 ，PKT Arrive INT 表示 报 文 到 达 CPU 的 
务 例 程 









































ISR 于 是 处 理 这 个 中 上 断 : 


PKT Arrive INT| X Driver 
— p 


PKT Arrive INT 
— p 























， 报 文 没有 直接 发 到 设备 ， 而 是 直接 传 给 了 netf rx 函数 ， 这 是 什么 意思 ? 











断 产 生 了 ， 茶 设备 驱动 的 中 断 服 












































ISR (1)dev_alloc_skb process_backlog 
(2)netif, rx netif_rx_schedule net rx action P a =s 
RX I- E IDE 
SOFTIRQ | ^P Dev->poll() | netif_receive_s 
A 
(1)dev_alloc_skb Y Driver poll 
Y rr (2) netif. rx schedule function 














图 表 4-18 不 同类 型 的 驱动 程序 造成 不 同 的 报 文 接收 方式 

















Linux 下 设备 是 如 何 处 理 接收 报 文 的 ， 其 步骤 如 下 : 














当中 断 到 来 后 ISR 响应 ， 判 断 是 否 报 文 接收 中 断 ， 如 果 是 那么 必定 完成 如 下 工作 : 
skb = dev_alloc_skb(...); 





skb- protocol = eth_type_trans(skb, dev); 




















ISR 返回 。 


























a) “如果 设备 采用 backlog_dev 设备 作为 自己 的 接收 后 台 ( 如 X driver), 那么 通过 netif_rx 
函数 触发 软 中 断 ， 它 内 部 调用 netif_rx_schedule>__netif_rx_schedule 



































备 没 有 采用 backlog dev 设备 (如 Y driver), MAA 


__netif_rx_schedule 触发 软 中 断 

















HA EX poll 函数 ， 此 时 也 有 2 种 路 径 : 











a) ”如 果 设 备 采 用 backlog dev 设备 作为 自己 的 接收 后 台 CHI X driver) 
process backlog 函数 ， 它 内 部 调用 netif_receive_skb 函数 





b) 如果 设 备 没 有 采用 backlog_dev WH CHI Y driver), BAI 





















































其 中 必须 调用 netif_receive_skb 函数 








这 副 图 告诉 我 们 
l. 
2. 触发 软 中 断 ， 
b) 如果 设 
3. HWS iAP 
函数 ， 
4. 








netif receive skb 会 调用 deliver_skb 将 报 文 传 给 正确 的 协议 处 理 函 数 








"m 
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F 发 者 必须 调用 


a 





; ALA poll 就 是 


于 发 者 必须 实现 相应 的 poll 
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下 面 我 们 细 细 分 析 netif rx EZ. 7g f CPU 的 效率 ， 上 层 的 处 理 函 数 的 将 采用 软 中 断 的 方式 
激活 ，netif rx 的 一 个 重要 工作 就 是 将 传 入 的 sk_buff 放 到 等 候 队 列 中 ， 并 置 软 中 断 标 志 人 位， 然后 
便 可 放心 返回 ， 等 待 下 一 次 网 络 数据 包 的 到 来 
过 了 一 段 时 间 后 , 一 次 CPU 调度 会 由 于 某 些 原因 会 发 生 (如 某 进 程 的 时 间 片 用 完 )。 在 进程 调 










































































































































































































































































度 函 数 即 schedule0 中 ， 会 检查 有 没有 软 中 断 发 生 ， 关 有 则 运行 相应 的 处 理 函 数 

do fe 

Bo % nete xs — ”传递 报 文 数据 到 网 络 处 理 代码 

3. * ”此 函数 从 设备 驱动 程序 中 收 到 一 个 报 文 ， 然 后 把 它 放 入 上 层 协 议 的 队列 中 等 竺 处 理 ， 它 几乎 总 是 成 
功 的 。 

4. * ”该 报 文 可 能 由 于 拥塞 控制 而 被 丢弃， 也 可 能 被 上 层 协 议 丢 弃 

Bis 5 

Gc * return values: 

7. * NET_RX_SUCCESS (没有 拥塞 ) 

8 . * NET RX CN LOW  ( 低 拥 塞 ) 

9. * NET RX CN MoD (中 等 程度 的 拥塞 ) 

10. * NET RX CN HIGH (严重 拥塞 ) 

11. * NET RX DROP ( 报 文 被 丢弃 ) 

We wy 

U3 5 slide ol cu XS Er UCE ES KADUT PEASKE) 

14. { 

T5; int this_cpu; 

Mas struct softnet_data *queue; 

TES unsigned long flags; 

koe 

dro eect caren 

20 

Dale if (!skb-»stamp.tv sec) 

2 net timestamp(&skb-»stamp); 

Dc 

ul. ss 


25. * The code is rearranged so that the path is the most 
26. * short when CPU is congested, but is still operating. 





2s wf 

28 . local irq save (flags); 

29. this cpu = smp processor id(); 

Su queue = & get cpu var(softnet data); 

Sul 

dA — get cpu var(netdev rx stat).total-**; 

S3. if (queue->input_pkt_queue.qlen <= netdev_max_backlog) 
34. { 

















这 个 队列 中 的 skb 还 不 超 长 ， 所 以 可 以 进入 此 判断 。 

下 面 几 行 代码 的 含义 要 分 2 种 情况 : 

第 一 种 : 网 口 收 到 第 一 个 报 文 时 ， 先 把 接收 软 中 断 打开 ， 然 后 把 报 文 放 在 队列 中 ， 返 
以 执行 时 就 去 处 理 这 些 报 文 
第 二 种 : 当 网 口 收 到 报 文 后 发 现 队列 中 还 有 报 文 ， 那 么 先 把 此 次 收 到 的 报 文 挂 到 队列 中 ， 然 后 就 返回 ， 
于 队列 中 还 有 报 文 ， 相 关 软 中 断 可 以 在 后 台 继 续 处 理 这 些 报 文 

Soe if (queue->input_pkt_queue.qlen) 

36. { 

37. enqueue: 






































Izi 
IK 


。 当 软 中 断 可 
















































































SOR (2. skb queue tail(&queue-»input. pkt. queue, skb); 


38). local irq restore(flags); 
40. return NET RX SUCCESS; 
41. } 








43. (Dnetif rx schedule (&queue-»backlog. dev); / /7E JE MACH o HT 
44. goto enqueue; 


SOR kfree skb(skb); 
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5i return NET RX DROP; 
EP PEN 
代码 段 4-42 netif rx 函数 

读者 一 定 要 体会 上 面 代码 中 39—50 行 的 技巧 ， 其 要 表达 的 意义 如 下 : 
ile if (queue->input_pkt_queuve.qlen== 0) // 很 重要 ， 如 果 去 掉 此 行 代码 会 有 什么 结果 ? 
2 { 
Er (Dnetif rx schedule (&queue-»backlog dev); 
4. ) 
es (2. skb queue tail (&queue-»input pkt queue, skb); 
6. 
we return NET_RX_SUCCESS; 



































为 什么 只 有 在 input pkt queue.glen 


代码 段 4-43 报 文 接收 队列 的 等 价 代码 








等 于 0 的 时 候 发 出 软 中 断 ?” 由 于 net rx action. 函数 与 





. netif rx schedule 的 耦合 度 很 大 ， 它 们 都 操作 一 个 softnet data.poll list 链表 ， 并 且 不 区 分 是 那个 
设备 挂 到 了 链表 上 ， 
1. 假设 input_pkt_gqueue.glen 为 0， 先 执行  ， 然 后 执行 @ ， 

NET_RX_SUCCESS. 


A, 
么 要 











2. 当 又 来 一 个 报 文 〈《 此 时 软 中 断 还 没有 执行 机 会 )， 于 是 又 执行 @， 这 村 
上 又 多 了 一 个 dev， 似 乎 也 没有 问题 。 然 后 


Ja 











那 我 们 来 模拟 一 下 如 果 把 那 句 判断 语句 去 掉 会 












































3. 终于 轮 到 软 ， 



































个 报 文 ， 依 次 处 理 ， 完 毕 退 出 到 net_rx_action 函数 中 


4. net rx action 还 要 扫描 softnet_data.poll_list， 取 出 第 二 个 dev， 还 














出 现 什 




















不 大 ， 因 为 只 是 浪费 一 次 循环 。 
5. ”如 果 我 们 再 假设 突然 来 100 个 报 文 ， 那 么 无 效 循 环 可 以 达到 100 次 ， 是 不 是 呢 ? 





其 实 这 也 不 是 什么 不 能 解决 的 问题 ， 只 要 在 
算法 来 检查 ， 都 要 浪费 时 间 ， 因 为 这 可 是 在 


F 


不 管用 什么 样 的 
































写成 要 goto 的 语句 ， 我 没 看 懂 。 读 者 可 以 帮 我 想 一 下 。 












































A 
以 





E, 
HE 
R 


其 poll 函数 ， 但 是 input. pkt queue 队列 中 已 经 没有 报 文 了 ， 于 是 退出 





情 ; 


Ba 








Wr net rx. action 执行 了 ， 它 先 取出 一 个 dev CHI back. log)， 然 后 执行 其 
poll CHI process backlog) 函数 ， 此 process_log 函数 扫描 input_pkt_queue 队列 ， 发 现 有 2 





II 


没有 问题 ， 返 回 





Fsoftnet_data.poll_list 











再 执行 @ input pkt queue&t LA 2 个 报 文 





























back log， 再 次 执行 





至 











F r E AT o 


出 。 问 题 似乎 有 ， 但 

















netif_rx_schedule 中 加 入 对 同一 dev 的 检查 ， 不 
于 Linux 内 核 为 什 
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垂直 方向 : 水 平方 向 : 各 回 
net_rx_action 调 画 数 中 扫描 各 
事 数 中 扫描 各 dev 自 skb 队 列 





对 于 backlog_dev 来 说 , 
就 是 在 process_backlog 




























































































D E 中 扫描 
| devi| Backlog je skb 上 | skb | skb « 
| dev- skb | -| skb | uel skb « 
em ees skb |----1 skb eur eee skb « 
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代码 段 4-44 不 同 的 接收 设备 使 用 不 同 的 接收 队列 














说 完 netif rx 的 内 部 流程 ， 我 们 再 看 看 RX SOFTIRQ 是 如 何 产生 作用 的 。 
首先 是 它 如 何 被 注册 到 系统 软 中 断 体 制 上 的 。 在 网 络 设备 初始 化 例 程 那 一 章节 中 我 们 看 到 









































net. dev init 函数 。 这 个 函数 挂 接 了 2 各 软 中 断 ， 一 个 是 TX SOFTIRQ， 一 个 是 RX SOFTIRQ， 后 
者 就 是 接收 软 中 断 ， 此 软 中 断 的 处 理 函 数 被 定 为 net_rx_action: 
open_softirq(NET_RX_SOFTIRQ, net_rx_action, NULL); 





另 一 方面 ， 驱 动 程 
用 _netif rx. schedule, 
































FRE ISR 也 要 激发 一 个 软 中 断 ， 不 管 是 使 用 封装 好 的 netif rx， 还 是 直接 调 
其 内 部 通过 _raise_softirq_irqoff 来 标记 一 个 软 中 断 的 产生 : 



























































. netif rx schedule 








前 面 已 经 说 过 软 中 断 被 处 理 的 时 机 ， 一 是 在 中 断 发 生 的 时 候 ， 二 是 在 系统 发 生 进程 调度 的 时 
刻 。 当 可 以 处 理 软 中 断 的 时 候 ， 系 统 会 检查 是 否 发 生 NET_RX_SOFTIRQ 软 中 断 ， 若 有 则 调用 

















. raise softirq irqoffi(NET RX SOFTIRQ) 











图 表 4-19  netif rx schedule 函数 调用 树 





















































net rx action, TF net rx action "F: 





dev = list entry(queue-^poll list.next, struct net device, poll list); 


如 果 系 统 此 dev 就 是 softnet data 中 的 backlog. dev. ‘EMMY poll 函数 指针 在 net. dev. init 中 被 赋 














"m 
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予 process_backlog， 此 函数 检查 softnet_data>input_pkt_queue 是 否 有 数据 ， 如 果 有 的 话 就 调用 

















netif receive skb. 











net rx action 

















dev-»poll(dev, &budget) 

















SA BI E RED C 
acklo ,这 是 2. 

2.4 的 区 射 -24 版 置 接 调 一 一 一 
用 ip_rcv 处 理 数 据 


process_backlog 























netif_receive_skb 











图 表 4-20 net rx actiion 函数 调用 树 








® iil packet ptype_base[16] 这 个 数组 解决 。 这 个 数组 包含 了 需要 接收 包 的 协议 ， 以 及 它们 

的 接收 函数 的 入 口 。 

© ip 协议 接收 数据 是 通过 ip rev, arp 协议 是 通过 arp. rev. 

€ 如 果 有 协议 想 把 自己 添加 到 这 个 数组 , 是 通过 dev add pack 实现 。 Ip 层 的 注册 是 在 ip. init 
中 













































































(o o -10| 01 5 CQ) ISO 


Ko) 


E T E TE 
(00 -1o00d0NPO:* 


WWNHNNNNNNN PO PN 
[— (Sy Wey (ee) <3) oxy (Sn) SS (OS) DD [SS 


32 
E 
34. 
35. 
36; 


int netif_receive_skb (struct sk_buff *skb) 
{ 
struct packet_type *ptype, *pt_prev; 
int ret = NET_RX_DROP; 
unsigned short type; 


#ifdef CONFIG_NETPOLL_RX 
if (skb-»dev-»netpoll rx && skb-»dev-»poll && netpoll rx(skb)) { 
kfree skb(skb); 
return NET RX DROP; 





. #endif 


if (!skb-»stamp.tv sec) 
net timestamp(&skb-»stamp); 


Skb bond(skb); 


— get cpu var(netdev rx stat).total-t*; 


. #ifdef CONFIG NET FASTROUTE 


if (skb-»pkt type == PACKET FASTROUTE) { 
. get cpu var(netdev rx stat).fastroute deferred out++; 
return dev queue xmit (skb) ; 


} 


. #endif 
skb->h.raw = skb->nh.raw = skb-»data; 
skb->mac_len = skb->nh.raw - skb-»mac.raw; 


pt_prev = NULL; 
如 果 设 置 了 将 报 文 全 部 收 上 去 ， 那 么 会 执行 下 面 的 代码 ， 要 注意 的 是 ， 收 上 去 之 后 的 报 文 还 需要 第 40 47 
之 后 的 代码 处 理 ， 也 就 是 说 ， 此 时 收 上 去 的 报 文 不 仅仅 是 给 IP 协议 栈 用 的 ， 而 是 给 诸如 防火 墙 、 某 个 特 
权 用 户 甚 至 无 聊 的 黑客 使 用 的 。( 好 可 怕 ! ©) 
list_for_each_entry_rcu(ptype, &ptype_all, list) 
if (!ptype->dev || ptype->dev == skb->dev) { 
if (pt prev) 
ret = deliver skb(skb, pt prev, 0); 
pt prev = ptype; 
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这 里 要 注意 的 是 最 后 一 个 ptype 没有 被 执行 ， 它 被 放 到 第 49 行 执行 

Se ) 
3. ) 
39. 
40. handle diverter(skb); 

如 果 配 置 了 桥 模式 BRIDGE， JA handle bridge 函数 将 会 有 具体 的 形式 ， 我 们 将 会 在 第 7 章 介 绍 

这 个 函数 ， 如 果 没 有 配置 BRIDGE， 那 么 这 个 函数 是 空 定义 。 那 么 pt_prev 还 是 等 于 NULL. 
41. if (__handle_bridge(skb, &pt_prev, &ret) ) 
42. goto out; 
43. 
44. type = skb->protocol; 

在 内 核 代码 中 ，ptype_all fll ptype_base 是 处 于 互补 的 关系 ， 参 见 dev_add_pack 函数 。 
45. list for each entry rcu(ptype, &ptype_base[ntohs (type) &15], list) { 
46. if (ptype->type == type && 
abge (!ptype-»dev | | ptype->dev == skb->dev)) { 

如 果 执 行 ptype_all "P fif f KM, WA 必然 执行 这 个 函数 ， 然后 才 把 当前 的 ptype 传 给 
pt_prev， 然 后 才 开 始 执 行 ptype_base 中 的 函数 
48. if (pt prev) 
49. ret = deliver skb(skb, pt prev, 0); 
505 pt_prev = ptype; 
ptype base 中 最 后 一 个 成 员 必定 在 第 54 行 执行 

515 } 
S c 

在 这 里 开始 调 正 常 报 文 的 处 理 函 数 ， 比 如 IP 包 或 ARP 包 ( 当 然 ， 如 果 ptype base 中 没有 指定 处 理 函 

数 ， 那 么 这 里 执行 的 还 是 ptype_all 中 的 处 理 函 数 ) 一 一 这 一 段 代 码 比 较 烦 琐 ， 解 释 起 来 也 比较 累 ! 
n3 if (pt prev) { 
54. ret = pt prev-»func(skb, skb->dev, pt prev); 
o } else ( 
Son kfree skb(skb); 
ioc ret = NET RX DROP; 
S88 ) 
59). Cisne g 
60. return ret; 
Gil. Jj 





代码 段 4-45 netif receive skb 函数 




























































































这 段 代 码 的 基本 思路 如 下 ， 一 个 报 文 要 经 过 层 层 “过 滤 ” 才 能 结束 其 生命 ,“ 过 滤器 ”就 
个 协议 的 处 理 函 数 : 
标准 行为 的 MS 
L3/L4 类 型 协议 L2368 
EN : A 
ETH P ALL Y 六 
-> *: T) 处 理 结束 
| ptype base br handle frame » 
报 文 到 达 软 ENDE me 
NORD 标准 行为 的 
中 断 通过 编译 开关 oe. 
> piypeal K 决定 走 到 那个 处 理 分 支 人 








处 理 结束 


图 表 4-21 报 文 到 i 





达 被 不 


ptype_base eee 


同 层次 协议 处 理 的 原理 图 





ELA 
HE BE 


Linux2.6 协议 栈 源 代码 分 析 








在 这 里 要 提醒 中 国 的 读者 ,特别 是 英语 不 太 灵 光 的 读者 ,看 源 代码 能 提高 自己 的 英语 水 准 。fotrwatd 


和 delive 在 英文 词典 中 意思 类 似 ， 但 是 ， 从 代码 上 就 可 以 看 出 两 者 之 间 的 区 别 : 前 者 是 水 平方 向 
的 “转发 ”， 后 者 是 向 上 的 “转发 ”， 以 后 我 们 写 类 似 的 代码 时 ， 最 好 能 借鉴 这 里 的 经 验 。 












































数 的 前 面 大 多 是 相关 于 ip 协议 的 检查 ， 


我 们 在 之 前 的 初始 化 中 看 到 ptype_base 目前 只 有 2 个 成 员 , 一 个 是 arp. rev 函数 , 一 个 是 ip_rcv 
函数 。 我 们 已 经 讨论 过 arp_rcv 了 ,下面 讨 论 ip reve iX FR 





包括 ip 头 的 检查 ， 我 们 跳 过 这 部 分 检查 内 容 。 函 数 最 后 通过 NF HOOK 宏 转 入 ip_rcv_finishO 函 


数 


























netif_receive_skb 




















skb_bond 











handle_diverter 






































handle_diverter 把 设备 缓冲 区 中 的 
数据 拷贝 到 dev 中 . 
divert_frame 此 文件 在 dv.c 中 
































ETH_DIVERT_FRAME 























pt_prev->func(skb, skb->dev, pt_prev) 




















ip_rcv 




















NF_HOOK 














ip. rcv. finish 





























dst input 





图 表 4-22 netif receive skb 函数 调用 树 




















因为 数据 包 是 刚 接收 到 的 还 没有 设置 关于 dst. entry 结构 的 路 由 信息 ， 那 么 首先 是 设 



































的 路 由 ， 这 是 通过 ip_route_input() PA BOR SCHL. PÆ ip rcv. finish 的 代码 : 











End 














数据 包 





static inline int ip rcv finish(struct sk buff *skb) 


{ 





struct net device *dev = skb-»dev; 
SewuUcie nr “ajo = Sislo—Simin, ajoiap 


/* 
* Initialise the virtual path cache for the packet. It describes 
* how the packet travels inside Linux networking. 
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EL 


if (skb->dst == NULL) { 
/* 路 由 为 空 的 时 候 检查 路 由 ， 因 为 要 确定 这 个 包 是 怎么 处 理 的 ， 是 转发 还 是 本 地 分 发 */ 
if (ip route input(skb, iph->daddr, iph->saddr, iph->tos, dev) ) 
goto drop; 


















































} 


dic (Wem S 5p» 4 
Struct ip ropt rons opi 


/* It looks as overkill, because not all 
IP options require packet mangling. 
But it is the easiest for now, especially taking 
into account that combination of IP options 
and running sniffer is extremely rare condition. 
T ANKE (SCS) 
vad 


if (skb cow(skb, skb headroom(skb))) { 
IP INC STATS BH(IpInDiscards); 
goto drop; 

} 

ijn = Slo > joes 


if (ip_options_compile (NULL, skb) ) 
goto inhdr error; 


opt = &(IPCB(skb)-»^opt); 
ai (eyue-ossee) 1 
struct in device *in dev - in dev get (dev); 
aig (stim iex) 4 
if (!IN DEV SOURCE ROUTE (in dev)) { 
if (IN DEV LOG MARTIANS(in dev) && net ratelimit()) 
/*source route option */ 
in dev put (in dev); 
goto drop; 

















} 
if (ip options rcv srr(skb)) /* 源 路 由 选项 处 理 */ 
goto drop; 






































} 
return dst input (skb); 


inhdr error: 
JEJE ALIN, FSI IUTS)_ JBL (( 3515) nie Te veo) P 


chor: 


kfree skb(skb); 
return NET RX DROP; 





代码 段 4-46 ip rcv. finish 函数 




















INET 域 中 有 两 个 地 方 需要 查询 输入 路 由 ， 一 个 是 当 收 到 一 个 IP 数据 报 ，ip_rcv 将 













































































LAC ZA 


ip. rcv. finish Ja, ip rcv. finish 判断 skb->dst 7277 4 NULL( 因 为 对 于 环 回 接口 上 收 到 的 数据 报 ， 其 








人 

















dst 是 存在 的 ， 不 需要 查询 输入 路 由 )， 如 果 为 NULL， 则 需要 查询 得 到 输入 路 由 。 另 一 个 地 方 是 当 


收 到 一 个 ARP 数据 报 ，arp_rcv Ht 






























































的 输入 路 由 。 


交 给 arp process 处 理 时 ，arp_process 也 需要 查询 得 到 该 skb 
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ip_route_input 如 果 没 有 找到 
就 继续 “slow” 查 
找 的 过 程 ， 这 
在 rt_hash_table 表 | 一 点 和 发 送 过 
中 查找 路 由 cache | 程 一 模 一 样 









































ip_route_input_slow 











xk 4-23ip route input 函数 调用 树 





co -10|01 Co N rn! 





NOTE. We drop all the packets that has local source 
addresses, because every properly looped back packet 
must have correct destination already attached by output routine. 


Such approach solves two big problems: 
1. Not simplex devices are handled properly. 
2. IP spoofing attempts are filtered with 100$ of guarantee. 


*ox F + F X X X X 


SS 


static int ip_route_input_slow(struct sk_buff *skb, u32 daddr, u32 saddr, 


u8 tos, struct net_device *dev) 


struct fib_result res; 
struct in_device *in_dev = in_dev_get (dev) ; 
SEAUCE wedhevh sell — if cig qur e if Galjotl ey = 
{ .daddr = daddr, 
.saddr = saddr, 
tos b OS 
.Scope = RT SCOPE UNIVERSE, 


#ifdef CONFIG IP ROUTE FWMARK 





.fwmark = skb->nfmark 
#endif 
) bh 
.iif = dev->ifindex }; 

unsignedflags = 0; 
u32 itag = 0; 
struct allem tsi 
unsignedhash; 
u32 Spec dst; 
int err = -EINVAL; 
int free_res = 0; 








/* 如 果 在 这 个 接口 上 关 掉 IP 使 能 ， 那 么 必须 退出 */ 
if (!in_dev) 
Goro outs 





/* Check for the most weird martians, which can be not detected 
by fib_lookup. 


ory 
if (MULTICAST(saddr) || BADCLASS(saddr) || LOOPBACK (saddr) ) 
goto martian_source; 
if (daddr == OxFFFFFFFF || (saddr == 0 && daddr == 0)) 


you) l9: yg 


/* Accept zero addresses only to limited broadcast; 
* I even do not know to fix it or not. Waiting for complains :-) 
"p 
if (ZERONET (saddr)) 
goto martian source; 
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53 if (BADCLASS(daddr) || ZERONET(daddr) || LOOPBACK (daddr) ) 
54 goto martian_destination; 
55 
BE fe 
57 * Now we are ready to route packet. 
58 "f 
现在 要 到 路 由 系统 〈 即 FIB 表 ) 中 查找 对 应 路 由 了 ， 这 个 步骤 和 ip_route_output_slow 中 一 样 
59 if ((err = fib lookup(&fl, &res)) != 0) { 
60 if (!IN_DEV_FORWARD (in dev)) 
61 goto e hostunreach; 
62 goto no route; 
63 } 
64 free res = 1; 
65 
66 if (res.type == RTN BROADCAST) 
67 (yox) l9»el iggexbhs E 
68 
69 if (res.type == RTN LOCAL) { 
70 int result; 
oie! result = fib_validate_source(saddr, daddr, tos, 
72 loopback dev.ifindex, 
HS dev, &spec_dst, &itag); 
74 TL Cresult x 03 
US goto martian_source; 
76 if (result) 
V7 flags |= RTCF_DIRECTSRC; 
78 spec_dst = daddr; 
发 现 是 目的 地 是 本 地 地 址 ， 跳 转 到 相应 代码 ， 注 意 ， 路 由 插入 的 代码 也 是 在 其 后 
WS) goto local_input; 
80 } 
81 
82 if (!IN_DEV_FORWARD (in_dev) ) 
83 goto e_hostunreach; 
84 if (res.type != RTN_UNICAST) 
85 goto martian destination; 
将 查找 到 的 路 由 插入 到 路 由 cache 中， 这 也 和 ip route output, slow 保持 一 臻 
86 err = ip_mkroute_input(skb, &res, &fl, in dev, daddr, saddr, tos); 
Shite feste eie 
88 
99 done 
90 if (free res) 
91 fib res put(é&res); 














对 于 目的 地 不 是 本 地 的 报 文 ， 从 这 里 就 退出 了 


92 rout: return err, 











93 

OM osei Lingve 

95 if (skb—>protocol !— htons (HTH_P_IP)) 

96 goto e_inval; 

9i 

98 if (ZERONET (saddr)) 

99 spec_dst = inet_select_addr (dev, 0, RT_SCOPE_LINK); 
100 else { 

101 err = fib validate source(saddr, 0, tos, 0, dev, &spec dst, 
LOZ &itag); 

IOS if (err < 0) 

104 goto martian_source; 

105 if (err) 

106 flags |= RTCF_DIRECTSRC; 

107 } 

108 flags |= RTCF_BROADCAST; 

1809) res.type = RTN_BROADCAST; 

110 RT_CACHE_STAT_INC (in_brd); 
































如 果 目 的 地 是 本 地 地 址 ， 如 :127.0.0.1 或 我 们 之 前 配置 的 192.168.18.1 进入 下 面 的 代码 
111 local_input: 


这 下 面 的 代码 和 前 面 调用 的 ijp_mkroute_input 里 

































































看 完成 的 工作 几乎 一 样 ,除了 指定 ast .input 函数 ， 

















eZ rth = dst alloc(&ipv4 dst ops); 
iiss 
114 IME = Sb. Clie, eos lo uae OB 
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ALIUS) 
TLG atomic-seti&rth-5»u.dst.- refent, N 
TEI. peN URIS ENE GS EDS TEHOSI, 
118 xir (uum. CEY nn le) 
119 rth->u.dst.flags |= DST_NOPOLICY; 
120 rth->f1.£14_dst = daddr; 
121 rth-»rt dst = daddr; 
1122 rth-«ElTI4-0t05 tos 
123 #ifdef CONFIG IP ROUTE FWMARK 
124 rth->f1.£14 fwmark= skb->nfmark; 
125 #endif 
126 rbth-*fl1fl4 SrC- saddr; 
leo rth-»rt src = saddr; 
128 #ifdef CONFIG NET CLS ROUTE 
112) en > ul cles sieCllecigalcl ilte are 
130 #endif 
下 面 的 代码 就 是 这 样 写 的 ， 是 不 是 比较 怪异 啊 ? 
sa rth-»rt iif = 
132 lon el wwii = Clow—saizuinclesxs 
133 rth->u.dst.dev = &loopback_dev; 
134 
TSS rth->idev = in_dev_get (rth->u.dst.dev) ; 
1.35 rth-»rt gateway = daddr; 
US rth->rt_spec_dst= spec dst; 
下 面 这 个 函数 我 们 会 在 后 面 的 接收 过 程 中 再 次 看 到 
138 rth-»u.dst.input- ip local deliver; 
1S8) rth->rt_flags = flags |RTCF_LOCAL; 
140 if (res.type == RTN_UNREACHABLE) { 
141 WEISS Ul celsa NPU ule (Nee 
142 rth->u.dst.error= -err; 
143 th IE Lees} &= ~RTCF_LOCAL; 
144 } 
145 rth->rt_type = res.type; 
146 hash = rt_hash_code(daddr, saddr ^ (fl.iif << 5)); 
147 err = rt intern hash(hash, rth, (struct rtable**)&skb-»dst); 
148 goto done; 
149 
150 no_route: 
To RI CACHE STAT INC (in. no route); 
152 spec_dst = inet_select_addr (dev, 0, RT_SCOPE_UNIVERSE) ; 
153 res.type = RTN UNREACHABLE; 
154 Goo logs MAEA 
SS 
156 pes 
IS 7 * Do not cache martian addresses: they should be logged (RFC1812) 
158 wh 
159 martian destination: 
160 RT_CACHE_STAT_INC(in_martian_dst); 
161 
162 e_hostunreach: 
163 err = -EHOSTUNREACH; 
164 goto done; 
165 
166 e_inval: 
167 err = -EINVAL; 
168 goto done; 
169 
170 e_nobufs: 
ial err = -ENOBUFS; 
172 goto done; 
17S 
174 martian_source: 
IAS ip_handle_martian_source (dev, in_dev, skb, daddr, saddr); 
176 goto e_inval; 
Tiger 





代码 段 4-47 ip route input slow 函数 
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此 函数 调用 _mkroute_input 去 增加 一 条 路 由 cache， 其 中 的 步骤 和 _ mkroute_output 几乎 同 出 






























































— Hit. 

IHS} le Eee ato ne abe nea er A De (SN El< IO EE “ldo, 
Ly) struct fib_result* res, 

180 struct in_device *in_dev, 

181 152 daddr, usc sacddr, u32 bos, 

182 struct rtable **result) 

IONS] wi 

184 

185 ecu lol M oit 

186 sigue. Se 

1897 struct in device *out dev; 

188 unsigned flags = 0; 

189 u32 spec_dst, itag; 

190 

TOIL /* get a working reference to the output device */ 
197 out dev - in dev get(FIB RES DEV(*res)); 

iis} if (out_dev == NULL) { 

人 汪汪 

T95 return -EINVAL; 

196 } 

LOT 

198 

199 err = fib validate source(saddr, daddr, tos, FIB RES OIF(*res), 
200 in dev-»dev, &spec dst, &itag); 

201 sag ((Guote << (Qu. 4 

202 ip handle martian source(in dev-»dev, in dev, skb, daddr, 
2103 saddr); 

204 

AOS err = -EINVAL; 

206 goto cleanup; 

207 } 

208 

209 if (err) 

210 flags |= RICF DIRECTSRC; 

21 

21,2 if (out dev == in dev && err && !(flags & (RTCF NAT | RTCF MASQ)) && 
213 (IN DEV SHARED MEDIA(out dev) || 

214 inet addr onlink(out dev, saddr, FIB RES GW(*res)))) 
215 flags |= RTCF_DOREDIRECT; 

BAL 

2L 7 aetate. moto Jo Ineo (a tHe )) yf 

218 /* Not IP (i.e. ARP). Do not create route, if it is 
ALS) * invalid for proxy arp. DNAT routes are always valid. 
220 Dr 

22d if (out dev == in dev && ! (flags & RTCF DNAT)) { 
222. err = -EINVAL; 

223 goto cleanup; 

224 } 

225 } 

226 

227 创建 一 条 路 由 cache, 指定 了 相关 操作 

228 rth = dst alloc(&ipv4 dst ops); 

229 aie (zem) d 

230 err = -ENOBUFS; 

2d goto cleanup; 

232 } 

BSS meth sunds tet ee ME SEE SHUT 

234 #ifdef CONFIG IP ROUTE MULTIPATH CACHED 

299 (SS E) 

236 rth-»u.dst.flags |= DST_BALANCED; 

237 #endif 

238 if (in dev-»cnf.no policy) 

239 ilm Cie owllacs |= DST NOI ICE 

240 LE Cin odev-oscnt.no xtrm) 

241 rth-»u.dst.flags |= DST NOXFRM; 

242 rth-»f1l1.f14 dst = daddr; 

243 rth->rt_dst = daddr; 
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244 
245 
246 
247 
248 
249 
250 
251 
252 
253 
254 
255 
256 
DON 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 


e 


} 


nen e eine OS (Xe 
rth--fl.f14 sro — saddr:; 

meN rt src -— saddr; 

rth-»rt gateway = daddr; 

ils. xe e sk aL se = 

rth->fl1l.iif = in_dev->dev->ifindex; 





rth-»u.dst.dev = (out. dev)-»dev; 
rth-»idev = in dev get(rth-»u.dst.dev); 
BEN >> [nl E (Oe 


rth->rt_spec_dst= spec dst; 


iege Cliste = alinyoybie, on wee 
meh. blo Clie ous uta MN SKO NET US 





rt set nexthop(rth, res, itag); 


itis lleje = tellewsy 


*result = rth; 
err = 0; 
eanup: 


/* release the working reference to the output device */ 


return err; 





代码 段 4-48 — mkroute input 函数 




















输入 路 由 查询 的 调用 接口 是 ip_route_input， 该 函数 首先 从 路 由 缓存 表 rt. hash. table 中 查找 ， 
































t RR 

















存 表 中 不 存在 ， 则 调用 函数 ip route input slow 生成 一 个 新 的 输入 路 由 项 ， 
ip_route_input_slow 对 输入 路 由 分 多 种 情况 处 理 , 如 果 skb 的 目的 地 址 是 广播 地 址 , 则 调用 dst_alloc 



























































创建 本 地 输入 的 路 由 项 ，struct rtable 的 rt flags 成 员 的 值 为 RTCF DIRECTSRC | 
F_BROADCAST | RTCF_LOCAL; 如 果 skb 的 目的 地 址 是 本 地 接收 地 址 ， 则 创建 本 地 输入 的 


RTC 





路 1 








Jj, struct rtable 的 rt. flags 成 员 的 值 为 RTCF_DIRECTSRC | RTCF_LOCAL. 









































如 果 收 到 的 skb 不 是 本 地 接收 的 ， 是 需要 进行 转发 的 ， 并 且 该 网 络 设备 接口 也 确实 允许 转发 ， 











则 调 























用 ip_mkroute_input 创建 路 由 项 。 


mii 
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BE ex d xx HU EP d erp EAE Te JY HE T ip local. deliver 函数 。 然 后 将 新 建立 的 路 
置 进入 数据 包 的 路 由 表 指 针 ， 并 且 放 入 全 局 的 路 由 表 绥 存 rt. hash. table [ ] 中, 我 们 继续 看 





ip_rev_finishO 〇 函数 的 代码 ， 设 置 了 数据 包 的 路 由 表 后 ， 最 后 进入 dst inputOPR Zi. 


Hg 
一 从 


















































P dst input 的 调用 关系 如 下 图 ， 注 意 此 图 是 反 的 ， 表 示 数 据 是 从 底层 往 




















EJ: 








是 ip_local_deliver， 如 果 这 条 路 由 是 用 来 转发 的 ， 对 应 操作 函数 是 ip_forward， 如 果 查 找 不 到 路 
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ip_local_deliver_finish 

















NF_HOOK 






































ip_local_deliver M 


skb->dst->input(skb) 








frip route output slow4&7x fit 
































dst input 





图 表 4-24 dst input 函数 调用 树 











skb->dst-input 在 ip. route output. slow 函数 中 定义 。 如 果 是 发 送 到 本 机 的 包 ,， 往 下 的 操作 函数 




































































的 处 理 情 况 则 是 ip_error。 














下 面 就 是 ip local deliver 函数 ， 首 先是 对 到 来 的 数据 包 进 行 碎片 重组 的 检查 和 处 理 ， 最 后 转 








TH 








A T ip local deliver finish() FA 2% 
































ie qu 
2^ * Deliver IP Packets to the higher protocol layers. 
3. a 
4. int ip local deliver(struct sk buff *skb) 
xs NE 
Ge fe 
tis * Reassemble IP fragments. 
8 . "f 
oF 
TOs if (skb->nh.iph->frag_off & htons(IP MF|IP OFFSET)) {/* 判 断 是 否 是 一 个 分 片 包 */ 
id. skb = ip defrag(skb); /* 分 片 重组 */ 
12. if (!skb) 
153% return 0; 
14. } 
15% 
1G - return ip local deliver finish (skb); 
A175 
代码 段 4-49 ip local deliver 函数 

注意 在 Kernel2.4 内 核 代 码 中 ，p_run_ipprot 函数 变 成 了 ip local deliver finish， 其 代码 如 下 : 
1. static inline int ip_local_deliver_finish(struct sk_buff *skb) 
2a if 
Sc aioe dal = ke Sailor s n> 
4. 
SE os Sum) 
6. 
he /* Point into the IP datagram, just past the header. */ 
on skb->h.raw = skb-»data; 
OR 
KOS rcu read lock(); 
ile s { 
BA. /* Note: See raw.c and net/raw.h, RAWV4_HTABLE_SIZE==MAX_INET_PROTOS */ 
iS} int protocol = skb->nh.iph->protocol; 





A^ 
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aioe, 


hash; 


St eUct Socki: Gawms lay 
HUGE AMIE mn oo ro, 


18. resubmit: 


对 每 个 报 文 要 先 检查 是 否 是 RAW 报 文 ,检查 的 方式 是 从 raw v4 hash 表 中 查找 是 否 有 对 应 的 RAW, 













































































































































































































































































在 inet create 函数 中 RAW socket 曾经 调用 了 自己 hash 函数 ， 将 自己 挂 在 了 此 hash 表 中 。 
然而 不 是 RAW 的 socket 不 会 往 此 hash 表 中 加 数据 。 

T9; hash = protocol & (MAX INET PROTOS - 1); 

20% raw sk = sk head(&raw v4 htable[hash]); 

2 - 

Dg. 向 上 层 分 发 收 到 的 目的 地 址 是 本 机 的 包 , 首先 分 发 原始 套 接 字 , 注意 : 由 于 ping 程序 本 身 是 raw 应 
H, MAZAS raw v4 input HH, 但 是 实际 并 没有 通过 这 个 函数 将 报 文 收 到 应 用 层 ， 为 什么 呢 ? 
请 参考 该 函数 的 讲解 ， 而 对 于 其 它 Raw IP 的 应 用 ， 比 如 OSPF 就 会 通过 此 函数 把 报 文 发 送 到 用 户 层 

AS} if (raw sk && !raw v4 input(skb, skb-»nh.iph, hash) ) 

24 raw sk = NULL; 

25 /* 没 有 冲突 的 哈 希 表 ， 直 接 定 向 到 协议 指针 */ 

26 if ((ipprot = inet_protos[hash]) != NULL) 

2i 

28 HiME TP 
对 应 的 操作 函数 是 tcp v4 rcv,icmp rcv,igmp rcv,udp rcv, 在 本 书目 前 的 例子 中 ， 于 证 
ping 应 用 程序 ， 那 么 它 应 该 是 icmp_rcv， 

BY « ret = ipprot-—>handler (skb); 

SOR IP INC STATS BH(IpInDelivers); 

Sil } 

32 else { 如 果 没 有 对 应 的 高 层 协 议 处 理 此 报 文 ， 要 么 发 送 目标 不 可 达 ， 要 么 释放 该 报 文 

33o if (fraw_sk) { 

34. icmp send(skb, ICMP DEST UNREACH, 

35. ICMP_PROT_UNREACH, 0); 

38 « j 

iis } else 

38 . kfree skb(skb); 

39) . } 

40. } 

44 out: 

42. 

43. return 0; 

44. } 





x 

















代码 段 4-50 ip local deliver finish 函数 











里 值得 总 结 一 下 。 当 IP 报 文 从 软 中 断 上 来 的 时 候 ， 必 须 从 找到 ptype_base[] 数 组 中 找到 对 











应 函数 ， 目 前 内 核 中 与 卫 有 关 的 只 有 3 个 ， 一 个 是 ip_packet_type， 另 一 个 是 arp_packet_type， 最 














后 是 rarp_packet type. JA A ip 报 文 ， 当 执行 到 ip_local_deliver_finish 时 ， 则 应 该 从 inet. protos[] 














数组 中 找到 对 应 函数 ， 里 面包 含 ICMP, UDP, TCP 等 上 层 协议 的 处 理 函数 。 这 2 个 数组 极 易 造 


成 混淆 


协议 。 


4.10 








， 因 为 都 有 一 个 
的 记忆 方法 是 : 对 于 前 一 个 ， 其 回调 函数 是 func， 人 处 理 packet， 后 一 个 回调 函数 是 handler， 处 理 


ICMP 























| 


调 函 数 。 在 经 历 这 么 多 函数 的 研究 ， 读 者 可 能 都 有 点 党 了 。 一 个 比较 好 





















































IP 协议 并 不 是 一 个 可 靠 的 协议 ， 它 不 保证 数据 被 送 达 ， 那 么 ， 自 然 的 ， 保 证 数据 送 达 的 工作 
其 他 的 模块 来 完成 。 其 中 一 个 重要 的 模块 就 是 ICMP( 网 络 控制 报 文 ) 协 议 。 它 是 TCP/IP H 





应 该 | 




















议 集 ， 


误 、 交 





的 一 个 子 | 















































协议 ,属于 网 络 层 协议 ,主要 用 于 在 主机 与 路 由 器 之 间 传 递 控制 信息 ,包括 报告 错 














换 受 限 控制 和 状态 信息 等 。 
当 传 送 IP 数据 包 发 生 错误 一 一 比如 主机 不 可 达 ， 路 由 不 可 达 等 等 ，ICMP 协议 将 会 把 错误 信 


"m 


第 198 页 


Linux2.6 协议 栈 源 代 码 分 析 
息 封 包 ， 然 后 传送 回 给 主机 。 给 主机 一 个 处 理 错误 的 机 会 ， 这 也 就 是 为 什么 说 建立 在 IP 层 以 上 
的 协议 是 可 能 做 到 安全 的 原因 。ICMP 数据 包 由 8bit 的 错误 类 型 和 8bit 的 代码 和 16bit 的 校 验 和 组 
成 。 而 前 16bit 就 组 成 了 ICMP 所 要 传递 的 信息 。 书 上 的 图 6 一 3 清楚 的 给 出 了 错误 类 型 和 代码 的 
组 合 代 表 的 意思 。 从 技术 角度 来 说 ，ICMP 就 是 一 个 “错误 侦 测 与 回报 机 制 ”， 其 目的 就 是 让 我 们 能 
够 检测 网 路 的 连 线 状况 ， 也 能 确保 连 线 的 准确 性 ， 其 功能 主要 有 : 
- 侦 测 远 端 主机 是 否 存在 。 
.建立 及 维护 路 由 资料 。 
- 重 导 资 料 传送 路 径 。 
- 资料 流量 控制 。 
ICMP /& F TCP/I P 协议 族 的 一 个 部 分 , 但 从 原理 上 来 说 它 并 不 是 不 可 缺少 的 ,因为 协议 栈 没 
有 它 照 样 可 以 跑 起 来 ， 但 由 于 它 主要 用 在 主机 与 路 由 器 之 间 传 递 控 制 信 息 ， 包 括 报告 错误 、 交 换 
受 限 控制 和 状态 信息 等 ， 所 以 如 果 没 有 它 我 们 几乎 不 能 检测 协议 栈 的 正常 运转 , 。 比 如 ping 就 是 
使 用 ICMP 协议 的 例子 ， 还 有 我 们 常 说 的 traceroute 应 用 程序 。ICMP 传递 差错 报 文 以 及 其 他 需要 
注意 的 信息 。ICMP 报 文通 常 被 IP 层 或 更 高 层 协议 © TCP 或 UDP) 使 用 。 一 些 ICMP 报 文 把 差 
错 报 文 返回 给 用 户 进程 。 
ICMP 协议 大 致 分 为 两 类 ， 一 种 是 查询 报 文 ， 一 种 是 差错 报 文 。 其 中 查询 报 文 有 以 下 几 种 用 
















































































































































































途 : 
l. ping 查询 (不 要 告诉 我 你 不 知道 ping 程序 ) 
2.， 子 网 拓 码 查询 (用 于 无 盘 工 作 站 在 初始 化 自身 的 时 候 初 始 化 子 网 掩 码 ) 
3. 时 间 惟 查询 (可 以 用 来 同步 时 间 ) 
而 差错 报 文 则 产生 在 数据 传送 发 生 错误 的 时 候 。 就 不 次 述 了 。 


























4.10.1 ICMP 报 文 格式 
ICMP 报 文 是 在 1 P 数据 报 内 部 被 传输 的 ， 如 下 图 所 示 。ICMP 的 正式 规范 参见 RFC 792 
[Posterl] 9 8 1b ]。 我 们 常 说 的 TCP 和 UDP 能 承载 数据 ， 但 ICMP 仅 包含 控制 信息 ， 如 下 图 所 示 。 
ICMP 不 象 TCP 或 UDP 有 端口 ， 但 它 确实 含有 两 个 域 : 类 型 (type) 和 代码 (code)。ICMP 在 沟通 
之 中 ， 主 要 是 透 过 不 同 的 类 别 (Type) 与 代码 (Code) 让 机 器 来 识别 不 同 的 连 线 状况 。 
0800 IP 数据 报 















































8b 类 型 8b 代码 16b 校 验 和 

















图 表 4-25ICMP 数据 报 文 格式 
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ICMP 报 文 的 格式 如 图 6- 2 所 示 。 所 有 报 文 的 前 4 个 字 节 都 是 一 样 的 ， 但 是 剩 下 的 其 他 字 贡 
则 互 不 相同 。 下 面 我 们 将 逐个 介绍 各 种 报 文 格式 。 

类 型 字段 可 以 有 1 5 个 不 同 的 值 ， 以 描述 特定 类 型 的 ICMP 报 文 。 某 些 ICMP 报 文 还 使 用 代 
码 字段 的 值 来 进一步 描述 不 同 的 条 件 。 


检验 和 字段 覆盖 整个 ICMP 报 文 。ICMP 的 检验 和 是 必需 的 。 



























































icmp rcv 











icmp. pointers[ ] 



































0 ICMP ECHOREPLY [ON 
e. 3 | ICMP_DEST_UNREACH > icmp_unreach 
根据 type 来 执 | ” | — 
行 相应 函数 
5 ICMP_REDIRECT > icmp_redirect 
8 ICMP_ECHO > icmp_echo 

















NE T icmp. discard 


图 表 4-26 icmp rcv 处 理 接收 到 的 消息 





当 报 文 到 达 ip local deliver finish 时 ， 发 现 是 ICMP 数据 报 文 类 型 ， 那 么 会 执行 icmp_rev, 
它 会 根据 ICMP 的 类 型 来 执行 相应 的 函数 。 这 些 函数 都 放 到 一 个 icmp_points[] 指 针 数 组 中 ， 大 部 
分 指针 都 指向 icmp_discard， 里 面 什么 都 不 做 ， 连 个 return 语句 都 没有 。 我 们 比较 常见 的 就 是 上 图 
中 列 出 的 几 个 函数 。 









































icmp_echo 

















icmp_reply 

















ip_route_output_key 




















icmp_push_reply 























ip_push_pending_frames 








图 表 4-27 icmp_echo 函数 调用 树 




















从 上 图 中 可 以 看 出 来 , icmp 是 基于 IP 的 应 用 , 它 首先 去 查询 路 由 表 , 然后 才能 把 报 文 发 出 来 。 

当 分 组 被 发 给 错误 的 路 由 器 时 ， 产 生 重 定向 报 文 。 该 路 由 器 把 分 组 转发 给 正确 的 路 由 器 ， 并 发 
一 个 ICMP 重 定向 报 文 ， 系 统 把 信息 记 入 它 自己 的 路 由 表 。 
4.10.2 ping 本 机 地 址 及 回环 地 址 

Ping 命令 利用 ICMP 回 射 请 求 报 文 和 回 射 应 答 报 文 来 测试 目标 系统 是 否 可 达 。 
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ICMP 请 求 和 ICMP 应 答 报 文 是 配合 工作 的 。 当 源 主机 向 目标 主机 发 送 了 ICMP 请 求 数据 包 后 ， 
它 期 待 着 目标 主机 的 回答 。 目 标 主 机 在 收 到 一 个 ICMP 回 射 请 求 数据 包 后 ， 它 会 交换 源 、 目 的 主 
机 的 地 址 ， 然 后 将 收 到 的 ICMP 请 求 数据 包 中 的 数据 部 分 原封 不 动 地 封装 在 自己 的 ICMP 回 射 应 
答 数据 包 中 ， 然 后 发 回 给 发 送 ICMP 请 求 的 一 方 。 如 果 校 验 正确 ， 发 送 者 便 认为 目标 主机 的 服务 
正常 ， 也 即 物理 连接 畅通 。 


Ping 127.0.0.1 | 
Send ICMP packet 


















































































































































Ping 127.0.0.1 


User Space [ Recv ICMP packet ) 






































Dev abstract ayek 


Loopback 











"- 
The Same Host 


图 表 4-28 协 议 栈 的 交互 一 一 目的 地 址 是 本 机 


© ee 


@ © ———dev_queue_xmit 
o @ — —ip. local deliver 


当 收 到 来 自 对 端 主机 的 icmp PENAT, ip local deliver finish. K Zit 4 7c T £t na ds HK 
raw_v4_htable。 因 为 在 创建 socket HY, inet create 会 把 协议 号 IPPROTO. ICMP 的 值 赋 给 socket 的 
成 员 num, FF Lh num 为 键 值 ， 把 socket 存 入 哈 项 表 raw v4 htable , 
raw_v4_htable[IPPROTO_ICMP&(MAX_INET_PROTOS-1)] 上 即 存 放 了 这 个 socket， 实 际 上 是 一 个 
socket 的 链表 ， 如 果 其 它 还 有 socket 要 处 理 这 个 回 显 应 答 ， 也 会 被 放 到 这 里 ， 组 成 一 个 链表 ， 
ip local deliver finish 收 到 数据 报 后 ， 取 出 这 个 socket 链表 (目前 实际 上 只 有 一 项 )， 调 用 
raw v4 input, ， 把 skb 交 给 每 一 个 socket 进行 处 理 。 然 后 ， 还 需要 把 数据 报 交 给 
inet protoseIPPROTO ICMP&(MAX _INET_PROTOS-D]， 即 icmp_rev 处 理 ， 因 为 对 于 icmp 报 文 ， 
每 一 个 都 是 需要 经 过 协议 栈 处 理 的 ， 但 对 回 显 应 答 ，icmp_rcv 只 是 简单 丢弃 ， 并 未 实际 处 理 。 

到 这 里 报 文 上 到 了 IP 层 ， 也 经 过 了 ICMP 协议 的 处 理 ， 然 后 报 文 会 交 给 INET 层 ， 不 过 我 们 
会 在 “从 内 核 到 用 户 ” 一 节 中 讲解 。 
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4.10.3 ping 外 部 地 址 
到 现在 为 止 ， 我 们 研究 的 是 目的 地 址 是 本 机 的 ping 过 程 ， 下 面 我 们 要 介绍 如 果 目 的 地 址 不 是 
本 机 的 情况 。 既 然 我 们 已 经 给 出 了 ping 本 机 的 内 部 过 程 ， 那 下 图 就 是 目的 地 址 是 外 部 主机 的 情况 
















































































之 日 的 地 主机 (在 图 中 是 Host B). 收 到 了 ICMP 报 文 。 
( Send ICMP packet | User Space User Space 
( mer — AW SO k | Kernel Space Kernel PAST ICD | 
A 

















Y 
eoe 
spe 
Dev abstract layer | 
( Secum e... 9 a 


Host A Host B 



































图 表 4-29 协 议 栈 的 交互 一 一 目的 地 址 是 直 连 主机 


注意 这 里 是 2 台 主 机 A MB. 








© © ——neigh_resolve_output 


@ @ aa ueue_xmit 
q 
®© © ——ip_local_deliver 


可 以 得 出 结论 ， 当 源 、 目 的 地 主机 直接 相连 的 时 候 ， 我 们 是 可 以 想象 其 和 ping 本 地 地 址 的 情 
况 类 似 ， 除 了 我 们 要 注意 设备 驱动 程序 发 送 的 接口 是 特定 设备 的 发 送 接口 而 不 是 loopback 设备 接 
的 发 送 。 
现在 我 们 还 要 考虑 另外 一 种 情况 ， 就 是 当 某 个 主机 收 到 一 个 目的 地 址 不 属于 自己 的 报 文 ， 它 
应 该 如 何 处 理 ， 这 个 处 理 过 程 就 是 协议 栈 的 网 络 行为 。 之 前 我 们 讨论 的 协议 栈 处 理 本 机 报 文 属于 
主机 行为 。 我 们 已 经 知道 在 ip route input slow 函数 中 ， 首 先 调 用 fib lookup 查找 相应 路 由 ， 如 
果 目 的 地 址 不 是 本 地 ， 那 么 就 调用 ip_mkroute_input 去 指定 input 和 output 函数 指针 ， 在 最 终 调用 
的 _mkroute_input 函数 中 有 这 样 两 行 代码 : 


rth->u.dst.input = ip_forward; 






































































































































rth->u.dst.output = ip_output; 
于 是 分 析 一 下 这 个 我 们 未 遇见 过 的 ip forward 函数 ， 下 面 是 经 过 整理 的 ip. forward 代码 : 











int ip_forward(struct sk_buff *skb) 

{ 

struct iphdr *iph; /* Our header */ 
struct rtable *rt; /* Route we use */ 


EUNE 





"m 
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oo —-1 OY O1! 


25. 


SOF 


struct ip options * opt= &(IPCB(skb)-»opt); 


if (IPCB(skb)-»opt.router alert && ip call ra chain(skb)) 
return NET RX SUCCESS; 

/* 广 播 ， 多 播 ， 混 杂 模 式 得 到 的 包 不 允许 转发 */ 

if (skb->pkt_type != PACKET HOST) 
goto drop; 








Skb-»ip summed = CHECKSUM NONE; 


/* 

* According to the RFC, we must first decrease the TTL field. If 
that reaches zero, we must reply an ICMP control message telling 
that the packet's lifetime expired. 

B 


iph = skb->nh.iph; 


if (iph->ttl <= 1) 

goto too_many_hops; 
iph = skb->nh.iph; 
rt = (struct rtable*) skb->dst; 











/* B ER EX HB RR ER hk Ne, EIR BL / 
DTe 
































abis (OME m I SASE rICEroOUte (GU rt ar eede re >rtagqateway) 
goto sr_failed; 


WWe rane obou eo mangleipacket S OD VES SA 
/* 重 新 组 织 这 个 SKBUFF 结构 */ 

if (skb cow(skb, LL_RESERVED_SPACE (rt->u.dst.dev)+rt->u.dst.header_len)) 
goto drop; 

iph = skb->nh.iph; 











/* Decrease ttl after skb cow done */ 


ip decrease ttl(iph); /* 减 少 ttl1， 并 且 重 新 计算 校 验 和 */ 






































/* 
* We now generate an ICMP HOST REDIRECT giving the route 
* we calculated. 

BA 

/* 路 由 重新 定向 且 没 有 源 路 由 选项 的 时 候 ， 必 须 产 生 一 个 重 定向 的 icmp 包 */ 

if (rt-»rt flags&RTCF DOREDIRECT && !opt—>srr) 

ip. rt send redirect (skb); 



























































skb->priority = rt tos2priority(iph-»5tos); 
return ip forward finish(skb); 


sr failed: 
/* 
A Strict routing permits no gatewaying 
EA 
icmp_send (skb, ICMP_DEST_UNREACH, ICMP_SR_FAILED, 0); 
goto drop; 





. too many hops: 


/* Tell the sender its packet died... */ 
icmp send(skb, ICMP TIME EXCEEDED, ICMP EXC TIL, 0); 























drop: 

kfree skb(skb); 
return NET RX DROP; 
} 





代码 段 4-51 ip forward 



































ip forward finish. 最 后 还 是 调用 了 dst output 。 我 们 知道 dst output Æ bw | 











E 调用 


skb->dst->output， 于 是 联系 上 一 页 中 对 这 个 函数 指针 的 赋值 ， 就 知道 ， 它 指向 了 ip_output。 这 个 
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函数 我 们 已 经 研究 过 了 ， 这 里 不 多 说 了 。 总 结 如 下 ; 


[ Ping 127.0.0.1 
Send ICMP packet 
















User Space 

















































































| INET—|RAW a | Kernel Space | em ] | ICMP | 
/ o © | E me v | 
| Neiglibour T i 
NS yer J | Neigh om 
| Dev abstract Payoh | X Dev abstract layer | 
~ RE Pd Ether Card Driver x ~ 
= > a 、 ~ -— u NE 

A * 

| Ether Card Driver Lg (K Eurer Card Driver | 

Host A Host B Host C 


图 表 4-30 协 议 栈 的 交互 一 一 目的 地 址 是 远 端 主机 



































注意 这 里 是 3 台 主 机 。Host B 处 于 中 间 位 置 , 数据 流 没有 到 达 ICMP 模块 , 而 是 到 达 IP 层 后 ， 
发 现 本 机 不 是 目的 主机 ， 于 是 调用 ip forward 把 数据 转发 出 去 。 


© ip_forward 


© ——ip_output 


在 目的 主机 是 经 过 中 间 主 机 《或 路 由 器 ) 才能 到 达 的 情况 下 ， 中 间 主 机 的 ICMP 模块 没有 参 
与 到 处 理 这 个 ICMP 报 文 的 过 程 中 。 

但 是 还 有 一 种 情况 ， 作 为 中 间 主 机 的 ICMP 参与 到 寻 路 的 过 程 中 ， 这 就 是 路 由 重 定向 。ICMP 
虽然 不 是 路 由 协议 ， 但 是 有 时 它 也 可 以 指导 数据 包 的 流向 (使 数据 流向 正确 的 网 关 )。ICMP 协议 
通过 ICMP 重 定 向 数据 包 ( 类 型 5、 代 人 码 0: 网 络 重 定向 ) 达到 这 个 目的 。 

我 们 看 下 面 这 副 网 络 配 置 图 : 























































































































E a tt 


mene ee slo: 1.1.1.1/24 | 
EEEE ^86 
! Gateway: 192.168.18.1 : 


la22--2--2222--22--- 












图 表 4-31 ICMP 重 定向 示意 图 
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主机 PC 要 ping 路 由 器 R2 的 slo 地 址 : 2.2.2.2, 主机 判断 出 目的 地 址 和 自己 的 IP 地 址 属于 不 























同 的 网 段 ， 因 此 它 要 将 ICMP 请 求 包 发 往 自 己 的 默认 网 关 192.168.18.1 (路 由 
我 们 现在 假设 主机 和 RI 之 间 的 ARP 过 程 已 经 完成 ， 路 由 器 RI 便 将 此 ICMP 请 求 转发 到 路 
















































































器 R1 的 Eth0 #0). 


R2 的 EthO 接口 : 192.168.18.2 (这 要 求 路 由 器 R1 正确 配置 了 到 网 络 192.168.18.3/24 的 路 由 )。 此 















































外 ， 路 由 器 R1 还 要 发 送 一 个 ICMP 重 定 向 消息 给 主机 PC, 通知 主机 PC 对 于 主机 PC 请 求 的 地 址 
请 求 主机 PC 的 MAC 地 址 ， 





























的 网 关 是 : 192.168.18.3。 路 由 器 R2 此 时 会 发 送 一 个 ARP 请 求 消息 
























































而 主机 PC 会 发 送 ARP 应 答 消 息 给 路 由 器 R2。 最 后 路 由 器 R2 通过 获得 的 主机 PC 的 MAC dhl 









































信息 ， 将 ICMP 应 答 消 息 发 送 给 主机 PC。 那 么 我 们 下 面 就 看 看 这 个 发 往 PC 的 重 定向 消息 做 了 人 





AF: 





icmp_redirect 











Icmph->Code: 
ICMP_REDIR_NET 
ICMP_REDIR_NETTOS 
ICMP_REDIR_HOST 
ICMP REDIR HOSTTOS 




















ip rt redirect 





表 4-32 ipmp redirect 函数 调用 树 





当主 机 收 到 ICMP REDIRECT 的 时 候 应 该 走 入 下 面 这 个 函数 : 







































































1. void ip rt redirect(u32 old gw, u32 daddr, u32 new gw, 
多 u32 saddr, struct net_device *dev) 

Sait 

“Altea? db. dien 

5. struct in device *in dev = in dev get (dev); 

js. Grauer Tell erem SAINA 

i. 32> skeysi2]—— sacon 0p 

8. int ikeys[2] = { dev-»ifindex, 0 }; 

9. struct netevent redirect netevent; 

1L() 

11. if (new gw == old gw || !IN DEV RX REDIRECTS (in dev) 
12 || MULTICAST (new_gw) || BADCLASS (new gw) || ZERONET (new gw)) 
Se goto reject_redirect; 

14. 

15. if (!IN DEV SHARED MEDIA(in dev)) { 

l5. if (!inet addr onlink(in dev, new gw, old gw)) 

JUS goto reject redirect; 

18. if (IN DEV SEC REDIRECTS(in dev) && ip fib check default (new gw, dev)) 
19) - goto reject redirect; 

20. ) else { 

zd if (inet addr type(new gw) != RTN UNICAST) 

22. goto reject redirect; 

ZI. 

24 

Qs). Eus (sh = Oe cb < Be ope» qi 

29.5 for (k = 0; k « 2; k++) { 

21 s unsigned hash = rt hash code (daddr, 

ON Skeys[i] ^ (ikeys[k] «« 5)); 
BS) x 

S07 rthp-&rt hash table[hash].chain; 

SL 

32w while ((rth = rcu dereference(*rthp)) != NULL) { 
UT struct rtable *rt; 

34 
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ELS if (rth-»f1.f14 dst !- daddr [| 

36. eeh e c elaro l= seeweti || 
gus rth-»fl.oif l= ikeysIk] || 

SOR rth->fl.iif dies 0) 4 

39. rthp = &rth-»u.rt next; 

40. continue; 

41. ) 

42. 

ag. if (rth-»rt dst !- daddr || 

44. rth-»rt src !- saddr || 

45. rth-»u.dst.error || 

46. rth-»rt gateway !- old gw I 

47. rth->u.dst.dev != dev) 

48. break; 

49. 

S rt = dst alloc(&ipv4 dst ops); 

Slc 

I2 - /* Copy all the information. */ 

537 Wine te 

Bus INIT RCU HEAD(&rt-»u.dst.rcu head); 
557 rt-»u.dst. use = Es 

515 « elcome seid ((ueecsabgeleE.u mn en 1) p 
oye wesw. oleic «cla Ike! = NULL; 

BS 

oes rt-»u.dst.obsolete = 0; 

60. rt-»u.dst.lastuse = jiffies; 

61. rt-»u.dst.path = &rt-»u.dst; 

627 rt->u.dst.neighbour= NULL; 

63. rt-cu.dst.hh = NULL; 

64. ic Sh 6 CIBC axe sea = NULL; 

65. 

66. rt-»rt, flags |= RTCF_REDIRECTED; 
Cue 

68. /* Gateway is different ... */ 

69. rt-»rt gateway = new gw; 

10. 

WAL /* Redirect received -» path was valid */ 
des dst confirm(&rth-»u.dst); 

y 

74. if (arp bind neighbour(s&rt-»u.dst) || 
gay !(rt-»u.dst.neighbour-»nud state & 
76. NUD VALID)) ( 

du if (rt-»u.dst.neighbour) 

TES neigh event send(rt-»u.dst.neighbour, NULL); 
qu. rie, (bevor (eal) P 

80. goto do next; 

Sil > } 

BIZ. 

os. netevent.old = &rth->u.dst; 

84. netevent.new = &rt-»u.dst; 

Sor call_netevent_notifiers (NETEVENT_REDIRECT, 
86. &netevent); 

e < 

88 . rt_del(hash, rth); 

89. if (!rt intern hash(hash, rt, &rt)) 
90. sir sew. oe (aie) P 

nq goto do next; 

92. ) 

OM do next: 

94, ^ 

OS } 

965. Jj 

Sy 

98. return; 

OON 

OU reject_redirect: 

1L()3L « 

LOZ « } 








4.11 从 内 核 到 用 户 


而 在 接收 的 另 一 端 ， 用 户 调用 recvfrom 系统 接 








sys_recv 























sys_recvfrom 








为 了 明白 数据 是 如 何 从 协议 栈 到 达 用 户 
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代码 段 4-52 ip_rt_redirect 函数 





sockfd_| 


lookup 














sock_recvmsg 
































init_syn 


c kiocb 














. SOCk recvmsg 




















move addr to user 




















Sockfd put 

















内 部 操作 如 下 : 








kiocb_to_siocb 

















sock->ops->recvmsg 








v 








Sock common recvmsg 

















sk->sk_prot->recvmsg 























raw_recvmsg 





图 表 4-33 sys rcv 函数 调用 树 





慨 的 ， 我 们 必须 从 两 个 方向 理解 这 个 过 程 








do { 
用 户 层 执行 read 或 recv 系 统 skb_dequeue(&sk->sk_receive_queue) 
HOM ARB IR while (!wait_for_packet()) 4 J REE $ 
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raw_recvmsg 














skb_recv_datagram 





























把 数据 拷贝 到 








skb_copy_datagram_iovec 用 户 空 间 

















i 
i 
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i | 
挂 到 链表 上 | 并 唤醒 等 待 队列 


skb_free_datagram 











sk->sk_data_ready 























skb_queue_tail 

















数据 从 底层 上 来 





sock_queue_rcv_skb 

















raw_rcv_skb 























raw rcv 











释放 内 存 


图 表 4-34 从 两 个 方向 来 理解 报 文 是 如 何 到 达 用 户 层 的 



































raw rcv 内 部 比较 简单 ,无非 是 把 报 文 挂 到 队列 中 , 最 后 感觉 好 像 是 sk sk data ready 唤醒 了 
应 用 层 的 等 得 函数 ， 比 如 recvfrom， 那 么 此 函数 是 什么 呢 ? 我 们 现在 有 必要 回顾 一 下 创建 socket 
的 时 候 协 议 栈 做 了 些 什么 分 配 。 




















在 创建 socket{} 的 时 候 调 上 








此 函数 : 


























1. void sock_init_data(struct socket *sock, struct sock *sk) 
xe at 

3. skb_queue_head_init (&sk->sk_receive_queue) ; 
4. skb_queue_head_init (&sk->sk_write_queue) ; 
5. skb_queue_head_init (&sk->sk_error_queue) ; 
GA #ifdef CONFIG_NET_DMA 

7. skb_queue_head_init (&sk->sk_async_wait_queue); 
8. #endif 

oe 

10. sk->sk_send_head = NULL; 

itil. 

12. init timer(&sk-»sk timer); 

13. 

14. sk-»sk allocation GFP KERNEL; 

15. sk-»sk rcvbuf = Sysctl rmem default; 
16. sk-»sk sndbuf = sysctl_wmem_default; 
17. sk->sk_state = TCP CLOSE? 

18. sk->sk_socket sock; 

19. 

20. sock set flag(sk, SOCK ZAPPED); 

21 

zu. UE (sock) 
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AS. f 
24. sk->sk_type = Sock-»type; 
Z5. Sk-»sk sleep - &sock-»wait; 
207 sock->sk = sk; 
27. } else 
ZG sk->sk_sleep = NULL; 
ZY. 
30. rwlock init(&sk-»sk dst lock); 
31. rwlock init(&sk-»sk callback lock); 
32. lockdep set class(&sk-»sk callback lock, 
S3. af callback keys + sk-»sk family); 
34. 
35. sk-»sk state change- Sock def wakeup; 
36. sk-»sk data ready Sock def readable; 
37. sk-»sk write space = Sock def write space; 
38. sk-»sk error report- Sock def error report; 
39. sk-»sk destruct = sock_def_destruct; 
40. 
41. sk->sk_sndmsg_page NULL; 
42. sk->sk_sndmsg_off = Ds 
43. 
duce Me tt sus 
45. sk-»sk write pending = OF 
46. sk-»sk rcvlowat is 
47. sk-»sk rcvtimeo MAX SCHEDULE TIMEOUT; 
48. sk->sk_sndtimeo MAX SCHEDULE TIMEOUT; 
49. 
50. sk-»sk stamp.tv sec = -1L; 
51. sk->sk_stamp.tv_usec 二 
S 
SON 
代码 段 4-53 sock init data 函数 
原来 是 sock_def_readable. 
1. static void sock_def_readable(struct sock *sk, int len) 
Te Baht 
BA if (sk->sk_sleep && waitqueue_active (sk->sk_sleep)) 
4, wake up interruptible(sk-»sk sleep); 
ne Sk wake async(sk,1,POLL IN); 
CE 
Thea 





将 wait_queue 中 的 所 有 状态 为 TASK_INTERRUPTIBLE 的 进 


代码 段 4-54 sock def readable 函数 


wake up interruptible (0: TASK INTERRUPTIBLE-» TASK, RUNNING 























并 将 它们 都 放 到 running queue 4 


现在 从 另 一 个 方向 来 看 重点 来 看 ， 当 内 核 处 到 
该 函数 近 历 raw_v4_htable[protocol&(MAX 
的 ip 地 址 ， 源 ip 地 址 ， 
IPPROTO_ICMP( 我 们 当前 正 处 理 的 情况 ) 时 


T 











如 果 


收 


列 。 





A 
Fe? 


到 的 skb 224 raw 











则 不 处 理 。 但 1 
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PAs 



































| rcv 处 
应 用 程序 收 到 数据 报 ， 解 析 


办 议 栈 是 永远 不 会 
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:项 回 显 应 答 报 文 的 ， 














H, raw_rev 
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即 可 。 





icmp 首 


ESE ICMP 报 文 后 ， 
_INET_PROTOS-1)] 链 表 ， 找 出 协议 号 (inet->num)， 
入 设备 接口 都 匹配 的 socket， 克 隆 一 个 skb 交 给 它 处 理 。 但 协议 号 是 
, 则 还 需要 判断 该 icmp 





程 状态 都 置 为 TASK RUNNING, 


























它 会 





直接 调 








j raw_v4_input, 


目 























类 型 的 报 文 是 否 是 被 过 滤 掉 的 ， 
所 以 ， 可 以 无 视 这 行 代码 


调用 raw_rcv_skb， 把 收 到 的 skb BLA socket 的 接收 队 








C150) PN Hd| 


/* 


* 


JE 





Ie Aes 


* 
* 
wc Iie (OLX. 


Caller owns SKB, 


And not only TOS, 


input processing comes here for RAW socket delivery. 
So we must make clones. 


SHOULD pass TOS value up to the transport layer. 
but all IP header. 





A^ 
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a, 

Ae Jesh S^ alinjoublie (Cte Sle lobes “Elo, tet ee hah 
{ 

SRT UG ME SIO GI US 

struct hlist head *head; 

int delivered = 0; 


read lock(&raw v4 lock); 
head = &raw v4 htable[hash]; 
if (hlist empty (head)) 
qoto Outs 
sk = | raw v4 lookup( sk_head (head), iph->protocol, 
iph->saddr, iph-»daddr, 
skb->dev->ifindex) ; 


while (sk) { 
delivered = 1; 
下 面 这 个 判断 足以 让 我 们 的 ping 应 用 程序 从 这 个 函数 中 退出 ， 
IPPHEOTOCICMP 
if (iph->protocol != IPPROTO ICMP || !icmp filter(sk, skb)) ( 
Struct sk buff *clone - skb clone(skb, GFP ATOMIC); 

















> 














为 我 们 的 iph->protocol 是 














/* Not releasing hash table! */ 
if (clone) 
raw rcv(sk, clone); 


sk = | raw v4 lookup(sk next (sk), iph->protocol, 
iph->saddr, iph-»daddr, 
skb->dev->ifindex) ; 


Owes 
read unlock(&raw v4 lock); 
return delivered; 


} 





代码 段 4-55 raw_v4_input 函数 
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第 5 章 传输 层 实现 的 研究 











首先 要 说 明 的 是 , 我 不 太 想 研究 这 两 个 协议 , 因为 这 不 是 我 兴趣 所 在 , 还 有 就 是 , 我 觉得 SCTP 
似乎 也 比较 热门 ，TCP 反而 有 点 日 幕 西 山 的 感觉 了 。 但 前 面 看 到 了 很 多 关于 UDP 和 TCP 的 初始 
化 代码 ,不 研究 这 两 个 传输 层 协 议 又 有 点 对 不 起 自己 。 于 是 我 就 挑 了 一 些 比较 关键 的 部 分 说 了 说 ， 
内 容 上 比较 跳 ， 注 释 也 不 丰富 ， 如 果 没 有 一 点 网 络 基础 的 读者 还 不 能 完整 理解 我 要 说 的 内 容 ， 和 希 
望 读 者 原谅 。 

5.1 进一步 到 UDP 


关于 IP 层 的 实现 上 一 节 已 经 介绍 了 ， 现 在 开始 介绍 UDP 层 ， 这 一 层 属于 传输 层 应 用 ，UDP 
协议 基于 IP Je, mi UDP 程序 基于 UDP HN. HK UDP 无 所 谓 什么 协议 ， 它 没有 自己 的 状态 机 ， 
仅仅 是 在 卫 层 上 做 了 一 些 封装 ， 不 保证 报 文 能 确定 到 达 ， 没 有 请 求 一 应 答 机 制 ， 所 有 的 行为 ， 和 
IP 应 用 协议 一 样 。 只 不 过 ， 它 多 了 一 个 port 的 概念 ， 此 port 不 是 指 主 机 上 的 网 络 端口 ， 而 是 从 操 
作 系 统 内 核 的 角度 看 到 的 应 用 程序 “标识 ”。 我 们 都 知道 如 何 调用 操作 系统 的 接口 ， 但 操作 系统 是 
如 何 “调用 ”应 用 程序 的 呢 ? 在 我 们 现在 的 PC 机 操作 系统 中 ， 这 是 无 法 办 到 的 。 

于 是 人 们 为 应 用 程序 设置 一 个 标识 ， 内 核 根 据 这 个 标识 确定 是 哪 一 个 应 用 程序 曾经 给 它 发 过 
请 求 ， 然 后 把 数据 发 给 应 用 程序 ， 这 样 就 避免 操作 系统 把 所 有 的 数据 发 给 所 有 在 等 待 数 据 的 应 用 
程序 ， 从 操作 系统 的 角度 看 ， 这 个 标识 就 是 一 个 个 的 端口 。 比 如 你 在 网 络 上 和 一 个 女孩 聊天 ， 同 
时 也 和 一 个 教授 讨论 问题 。 你 当然 不 希望 发 给 女孩 的 话 教授 也 能 收 到 ， 这 就 是 传输 层 网 络 应 用 中 
加 入 的 port 概念 。 YE IP 层 ， 每 个 应 用 的 标识 就 是 ip 地 址 ， 内 核 根 据 ip 来 处 理 报 文 ， 要 么 给 本 机 ， 
HAHAA, Æ UDP 和 TCP 层 ， 不 仅 要 有 ip 地 址 ， 而 且 还 要 port 号 ， 内 核 根据 ip 地 址 确定 了 
属于 本 机 的 报 文 后 ， 还 要 根据 port 号 确定 哪 一 个 应 用 程序 才 是 报 文 的 终极 目的 地 。 


5.1.1 UDP 用 户 代码 
可 能 使 用 UDP 的 情况 包括 : 转发 路 由 表 数 据 交换 、 系 统 信 息 、 网 络 监 控 数 据 等 的 交换 。 这 
些 类 型 的 交换 不 需要 流 控 、 应 答 、 重 排序 或 任何 TCP 提供 的 功能 。 
我 们 先 给 出 UDP 应 用 程序 的 一 般 示例 ， 如 下 面 两 个 框图 ， 左 边 是 服务 器 端 ， 右 边 是 客户 端 。 







































































































































































































































































































































































服务 器 端 典型 代码 客户 端 典型 代码 





socket (..., SOCK_DGRAM, . socket (..., SOCK DGRAM, 0); 


bind(..., &servaddr, ...) 2. sendto(..., &servaddr, ...); 


recvfrom(..., &clientaddr, ...); 














服务 器 端 有 3 步 ， 第 一 步 和 第 3 步 我 们 都 很 熟悉 ， 客 户 端 更 简单 ， 都 是 我 们 曾经 研究 过 的 接 
。 出 于 篇 幅 ， 我 就 不 详细 说 明 这 几 个 函数 了 ， 只 是 提醒 大 家 要 注意 的 接口 参数 ， 将 导致 内 核 中 
的 INET 层 使 用 inetsw_array[] 数 组 里 第 二 个 单元 一 一 UDP 协议 inet_protosw{} 结 构 ， 从 而 使 用 
udp_prot 去 创建 socket 并 用 此 proto 指导 报 文 的 发 送 和 接收 。 

唯一 让 我 们 有 一 丝 兴 趣 的 就 是 服务 器 端 有 一 个 bind 接口 ,这 是 在 基于 卫 层 的 应 用 程序 中 看 不 
到 的 ， 它 是 否 有 什么 特殊 用 途 呢 ? 
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5.1.2 UDP 数据 报 文 格式 
UDP 提供 的 服务 比 之 IP 其 实 不 多 ， 也 就 是 UDP 报 文 头 部 增加 传输 层 上 多 路 分 配 或 多 路 分 离 
端口 以 及 一 个 CRC 校 验 值 。U DP 首部 的 各 字段 如 图 5 - 1 所 示 。 
























































0800 IP 头 Payload 








16b 源 端 口号 16b 目的 端 





由 











16b UDP 长 度 16b 校 验 和 














图 表 5-1UDP 数据 报 文 格式 












































UDP 端口 号 特殊 的 一 个 方面 是 其 源 端口 号 可 以 置 为 0， 表 示 没 有 指定 端口 ， 用 于 不 期 望 响应 
且 没 有 所 需 端口 号 的 场合 。 一 般 人 会 认为 ，UDP 的 端口 号 非常 简单 ， 简 单 到 似乎 没有 必要 存在 ， 
除非 用 于 socket 事务 标识 。UDP 和 IP 的 区 别 就 是 这 个 端口 号 ， 我 们 下 面 要 研究 的 内 容 也 和 这 个 
端口 号 有 密切 的 关系 。 
5.1.3 ”服务 器 端 bind 的 实现 
int bind(int sockfd,strUCt sockaddr *my_addr, int addrlen); Sockfd 是 调用 socket 函数 返回 
的 socket 描述 符 ,my_addr 是 一 个 指向 包含 有 本 机 IP 地 址 及 端口 号 等 信息 的 sockaddr 类 型 的 指针 ; 
addrlen 常 被 设置 为 sizeof(struct sockaddr). struct sockaddr 结构 类 型 是 用 来 保存 socket 信 息 的 : 
struct sockaddr { 
unsigned short sa_family; /* 地 址 族 ， AF_xxx */ 
char sa, data[14]; /* 14 字 节 的 协议 地 址 */ y; 
sa_family 一 般 为 AF_INET， 代 表 Internet “TCP/IP)〉 地 址 族 ;，sa_data 则 包含 该 socket 的 IP 
地 址 和 端口 号 。bind 是 将 一 个 socket 的 地 址 设 为 一 个 (addr,port) 对 ， 对 一 个 已 经 绑 定 的 socket, 不 
能 再 进行 绑 定 . 再 次 绑 定 bind 返回 -1, error == EINVAL。 男 外 还 有 一 种 结构 类 型 . struct 
sockaddr_in { short int sin_family; /* 地 址 族 */ 




























































































Hur 


unsigned short int sin, port; /* 端口 号 */ 
struct in_addr sin. addr; /* IP 地 址 */ 
unsigned char sin. zero[8]; /* 填充 0 以 保持 与 struct sockaddr 同样 大 小 */ 
E 
这 个 结构 更 方便 使 用 。sin_zero 用 来 将 sockaddr. in 结构 填充 到 与 struct sockaddr 同样 的 长 
度 ， 可 以 用 bzeroQ 8X, memset0 函 数 将 其 置 为 零 。 指 向 sockaddr in 的 指针 和 指向 sockaddr 的 指针 
可 以 相互 转换 ， 这 意味 着 如 果 一 个 函数 所 需 参 数 类 型 是 sockaddr 时 ， 你 可 以 在 函数 调用 的 时 候 将 
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一 个 指 癌 sockaddr_in 的 指针 转换 为 指向 sockaddr 的 指针 ; 或 者 相反 。 














使 用 bind 函数 时 , 可 以 用 下 面 的 赋值 实现 自动 获得 本 机 IP 地 址 和 随机 获取 一 个 没有 被 占 





























用 的 端口 号 : 


将 my_addr.sin_addr.s_addr 置 为 INADDR_ANY， 系 统 会 自动 填 入 本 机 IP 地 址 。 


my_addr.sin_port = 0; /* 系统 随机 选择 一 个 未 被 使 用 的 端口 号 */ 
my_addr.sin_addr.s_addr = INADDR_ANY; /* 填 入 本 机 IP 地址 */ 
通过 将 my_addr.sin_port 置 为 0， 消 数 会 自动 为 你 选择 一 个 未 占用 的 端口 来 使 用 。 同 样 ， 通 过 


r^ 



























































II 


























bind 系统 调用 在 协议 栈 内 核 函数 中 的 第 一 站 是 inet. bind 函数 , 它 首 先 要 调用 协议 本 身 的 bind 





函数 ( 即 struct sock 的 成 员 sk_prot->bind), {A UDP 和 TCP 协议 本 身 不 提供 bind 函数 。 接 下 来 对 


bind 系统 调用 传 入 的 IP 地 址 和 端口 作 一 个 正确 性 和 类 型 检查 ， 需 要 注意 的 是 ，0-1023 号 端口 是 只 
























































有 超级 用 户 才 有 权限 执行 绑 定 的 。 然 后 ， 令 传 入 的 IP 地 址 赋 给 inet_sockf} 的 成 员 rcv_saddr( 本 地 
接收 地 址 ) 和 saddr( 本 地 发 送 地 址 )， 接 下 来 ， 要 对 端口 写作 一 个 处 理 ， 调 用 协议 本 身 的 get. port K 


数 ( 即 sock{} 的 成 员 sk_prot->get_port( ) 对 传 入 的 端口 号 作 检 查 ， 
A^ 












































Y 


1 果 能 够 使 用 ， 则 绑 定 成 功 ， 如 











能 使 用 ， 则 会 返回 EADDRINUSE 错误 。 
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/* 
* Bind a name to a socket. Nothing much to do here since it's 
* the protocol's responsibility to handle the local address. 
* 

* We move the socket address to kernel space before we call 
* the protocol layer (having also checked the address is ok). 
* 


/ 


asmlinkage long sys bind(int fd, struct sockaddr | user *umyaddr, int addrlen) 


. i 


struct socket “sock; 

char address[MAX SOCK ADDR]; 

aug ORE; 
根据 ta 找到 相应 的 file{}， 然 后 再 找到 对 应 的 socket {} 结 构 

if( (sock = sockfd_lookup_light (fd, &err, ...))!=NULL) 

{ 























if ((err=move_addr_to_kernel (umyaddr, addrlen, address) )>=0) { 
在 此 调用 的 是 inet, bind. WF TCP 应 用 也 是 这 样 的 


rr = sock-»ops-»bind(sock, (struct sockaddr *)address, addrlen); 



































} 





代码 段 5-1 sys bind 函数 



































这 里 有 意思 的 是 代表 INET 域 网 络 层 套 接 字 的 结构 体 inet_sock{} 有 两 个 端口 号 相关 的 成 员 


























. ul6 num 和 __u16 sport。 它 们 都 代表 套 接 字 的 本 地 端口 号 。num 是 主机 字 节 序 ，sport 是 网 络 字 
节 序 。 当 套 接 字 类 型 为 SOCK_RAW 时 ,它们 代表 的 是 协议 号 (icmp,igmp 55), 前 面 已 经 介绍 过 了 。 











FPO WMATA OP 0 NN [| 


int inet_bind(struct socket *sock, struct sockaddr *uaddr, int addr_len) 


{ 


struct sockaddr in *addr = (struct sockaddr in *) uaddr; 
SErUCERS OC KINS kE acci Sh 
struct inet sock *inet = inet sk(sk); 


unsigned short snum; 
int chk addr ret; 
ine err; 


. /* If the socket has its own bind function then use it. (RAW) */ 








AG RAW KHH oroto()4E X T bind 函数 指针 ， 而 TcP 和 UDP 没有 相应 的 bind， 这 一 点 要 记 住 
if (sk->sk_prot-—>bind) { 
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LA. 


13. 
14. 
T53 


16. 
Lie 
len 
TOF 
20. 
2c 
2 c 
D 
24. 
25. 
29. 
2T c 
28. 
29). 
SOR 
Sle 
S2 


Ser 
34. 


Sor 
36. 
Sie 
3. 
SOR 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 


48. 
49. 


50) - 
Sle 
52E 
$3. 
54. 


E 
56. 
Dales 
SiS 
BY); 
60. 
61. 
62. 


chk 


/* 


* many applications when removed. 
allowing applications to make a non-local bind solves 


Sk-»5sk prot-»bind(sk, uaddr, addr_ 
J bind Jawiiki T 


err 
goto out; TE RAW IP 调 








*uad 


{ 





_addr_ret inet_addr_type (addr->sin_addr 


Not specified by any standard per-se, how 


several problems with systems using dynam 
(ie. 
is temporarily down) 


—EADDRNOTAVAIL; 
(!sysctl ip nonlocal bind && 
!linet-»freebind && 

addr-»sin addr.s addr INADDR ANY && 
chk addr ret RTN LOCAL && 

chk addr ret RTN MULTICAST && 

chk addr ret RTN BROADCAST) 

Goro. ours 


1 一 
1 一 
1 一 


l= 





- 般 情 况 下 sin port 的 值 不 为 0， 


snu 
(Sug ie 


如 果 服 务 器 的 port XT 1024, JAN) 


if (snum && snum < PROT_SOCK && !capable(CAP NET BIND SERVICE)) 
Goro DL. 

pr We keep a pair of addresses. rcv saddr is the one 

2s used by hash lookups, and saddr is used for transmit. 

* 

E In the BSD API these are the same except where it 

bi would be illegal to use them (multicast/broadcast) in 

9 which case the sending device address is used. 

A 

/* 检查 错误 ， 比 如 active socket, MR bind. */ 

err = -EINVAL; 

此 时 sock 的 状态 依然 为 CLOSE， 而 且 num 还 是 0 

if (sk->sk_state != TCP_CLOSE | inet-»num) 
goto out release sock; 

这 里 和 raw bind 函数 中 完成 的 工作 一 致 

inet->rcv_saddr = inet->saddr = addr->sin_addr.s_addr; 

if (chk_addr_ret == RTN_MULTICAST || chk_addr_ret == RTN_BROADCAST) 
inet-»saddr = 0; /* Use device */ 


/* 
调用 
if 














abi 


aLiE 


ntohs (addr-»sin port); 
—-HACCES; 


m 


It is unfortunate since 


your servers still start up even if your ISDN link 


len); 





static int raw. bind(struct sock *sk, struct sockaddr 
dr, int addr. len) 


struct inet sock *inet — inet sk(sk); 

struct sockaddr. in *addr = (struct sockaddr. in *) uaddr; 
inet->rcv_saddr=inet->saddr= addr->sin_addr.s_addr; 

if (chk_addr_ret == RTN. MULTICAST 


|| chk_addr_ret == RTN_BROADCAST) 


inet-^saddr = 0; /* Use device */ 


sk_dst_reset(sk); 
ret = 0; 
out: return ret; 


.S addr); 


ever it breaks too 


ic addressing. 

















程序 必须 有 超级 月 












































端口 绑 定 了 */ 











到 此 时 可 以 确定 我 们 可 以 进行 





























udp_v4_get_port， 见 下 面 的 解释 ， 对 于 UDP 和 TCP 
(sk-»sk prot-»get port(sk, snum)) { 
(inet-»rcv saddr) 

Sk-»sk userlocks |= SOCK BINDADDR LOCK; 
(snum) 

Sk-»sk userlocks |= SOCK BINDPORT LOCK; 


上 户 的 权限 








来 说 ， 这 个 函数 是 最 重要 
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把 从 第 55 行 得 到 的 inet>num IRA sport, M 

















的 端口 和 目的 地 址 依然 填 0 

































































































































































































































































































63. inet->sport = htons(inet-»num); 
64. inet->daddr = 0; 
65. inet-»dport = 0; 
66. sk_dst_reset (sk); 
67. err = 0; 
68. out_release_sock: 
69. release sock(sk); 
705 Owes 
71. return err; 
725 » 
代码 段 5-2 inet bind 函数 
在 下 面 的 udop_v4_get_port 函数 中 我 们 会 遇 到 一 个 比较 重要 的 数据 结构 udp_hash 表 ， 不 过 注 
在 2.6.18 的 代码 中 是 没有 其 初始 化 代码 的 ， 我 也 不 知道 是 遗漏 了 还 是 我 没有 找到 。 这 个 全 局 
变量 的 用 处 在 于 把 sk Toe 因为 一 个 sk 代表 一 个 用 户 打 开 的 socket 接口 ， 在 接收 报 文 的 时 
候 协议 栈 会 查找 此 hash 表 ， 和 希望 能 把 相应 的 报 文 传 给 正确 的 用 户 。 
一 章 中 曾 提 到 这 个 函数 ， 所 以 大 家 可 以 结合 起 来 看 : 
1. static int udp v4 get port(struct sock *sk, unsigned short snum) 
Be 4 
537 Struct nlist nole "mex static int inet_autobind(struct sock *sk) 
4. struct sock *sk2; { 
5. struct inet, sock *inet = inet sk(sk); struct inet sock *inet — inet sk(sk); 
if ('inet-» num) { 
inet-> sport = htons(inet- Saini: 
} 
return 0; 
6. if (snum == 0)V{ 
不 管 是 upp 还 是 TCP， 它 们 的 客户 端 一 般 都 没有 指定 port 号 ， 所 以 它们 一 定 要 分 配 一 个 重 来 没有 使 
用 过 的 端口 号 。 这 个 端口 号 是 源 端 的 端口 号 ， 不 是 目的 端的 端口 号 ， Hf t 2 号 已 经 JF ER 
人 码 指定 ,请 读者 自行 参考 udp_sendmsg 函数 。 那 个 地 方 是 RawIP Ñ TCP. UDP 最 大 最 本 质 的 区 别 。 
que int best size so far, best, result, i; 
9- 
9 if (udp port rover > sysctl local port range[1] | | 
TOR udp port rover < sysctl local port range[0]) 
que udp port rover = sysctl local port range[0]; 
du best size so far = 32767; 
US). best = result = udp_port_rover; 
找到 合适 的 nash 下 标 
14. woe (E = Op i s De RUVA SADE Gis, DSe A 
t5; struct hlist head *list; 
IG c int size; 
Ld e 
RG list = &udp RHash[result & (UDP HTABLE SIZE - 1)]; 
dum utes tem ev 
20 if (result > sysctl local port range[1]) 
Ze result = sysctl local port range[0] + 
2 ( (result - sysctl_local_port_range[0]) & (UDP_HTABLE_SIZE-1) ); 
BS goto gotit; 
24 } 
25 size = 0 
26 sk_for_each(sk2, node, list) 
25 if (++size >= best_size_so_far) 
28 goto next; #define UDP_HTABLE_SIZE 128 
29. best size so far - size; int sysctl local port range[2] = { 1024, 4999 }; 
SE best = result; 
Ol; next:; 
SAC ) 
找到 一 个 节点 作为 未 使 用 的 Port 号 
33% result = best; 
34 for(i = 0; i < (1 << 16)/UDP HTABLE SIZE; i++, result += UDP HTABLE SIZE) { 





AA 
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if (result > sysctl local port range[1]) 
result = sysctl local port range[0] 
+ ((result - sysctl local port range[0])& (UDP HTABLE SIZE-1)); 
if (!udp lport inuse (result) ) 
break; 

















if (i >= (1 << 16) / UDP HTABLE SIZE) 


GO Omen cine: 
SOL 
udp_port_rover = snum = result; 
. ) else { 





























如 果 传 入 的 snum 不 为 0, 那么 只 要 判断 是 否 已 经 有 对 应 snum 的 sock 在 使 用 ， 如 果 有 ， 说 明 已 经 有 
sock 绑 定 了 该 snum， 就 返回 错误 ， 和 否则 该 分 支 什 么 也 不 做 。 这 也 说 明 ， 能 走 到 这 个 分 支 必 然 是 
inet bind 调用 的 。 
sk_for_each(sk2, node, 

&udp hash[snum & (UDP HTABLE SIZE - 1)]) { 



































} 

这 行 代 码 反 映 了 此 函数 的 真实 含义 : 将 sin port 值 放 入 inet >num 中 。 

. inet-»num = snum; 

. if (sk unhashed(sk)) { 

如 果 还 没有 将 此 sk 放 到 hash 表 中 ， 现 在 就 插入 

struct hlist head *h = &udp hash[snum & (UDP HTABLE SIZE - 1)]; 








sk add node(sk, h); 


return 0; 


"Estos: 
return 1; 


o ] 








代码 段 5-3 udp v4 get port 

















Em 














udp 协议 提供 udp_v4_get_port 函数 用 于 自动 获取 本 地 端口 号 。 端 口号 有 一 个 固定 的 数值 范 






































化 


78 


动 获取 必须 在 这 个 范围 内 进行 。 数 组 int sysctl_local_port_range[2] 指 定 了 本 地 端口 号 的 范 
默认 值 为 1024 到 4999。 对 于 高 可 用 性 系统 ， 它 的 值 应 该 是 32768 到 61000( 在 TCP 协议 进行 初始 

















Ee 
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时 ， 会 进行 这 项 设置 )。 可 通过 修改 文件 /proc/sys/net/ipv4/ip_local_port_range 的 内 容 来 修改 这 个 


























围 。 
udp_hash 




















UDP_HTABLE_SIZE ' 
即 128 个 表 项 : 


图 表 5-2 udp_hash 数据 结构 





























udp hash 是 一 个 list 数组 , 总 共有 128 项 , 所 有 在 协议 栈 中 建立 的 udp socket 全 部 以 本 地 端 























号 为 关键 字 被 放 入 这 个 哈 希 数组 中 ， 全 局 变量 udp port rover 记录 了 最 近 一 次 被 分 配 的 端口 号 。 


3 
AE 




















找 一 个 新 的 可 用 的 端口 ， 总 是 从 udp_port_rover 开始 找 ， 检 查 udp hash[udp port rover & 








(UDP HTABLE SIZE - 1)] 的 list 是 否 为 空 ， 如 果 为 空 ， 则 取 udp port rover 为 新 的 端口 ， 如 果 不 
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xz， 则 记录 下 这 个 list 的 size， 同 时 保存 下 该 端口 号 ， 然 后 遍历 整个 数组 ， 找 到 size 最 小 的 一 个 


HE 

















list， 取 对 应 的 端口 号 为 我 们 所 要 获得 的 端口 。 然 后 , 检查 这 个 新 获得 的 端口 号 是 否 已 经 被 使 用 〈 同 
样 ， 通 过 检查 udp_hash 实现 )。 如 果 已 在 使 用 中 ， 则 把 端口 号 加 上 UDP_HTABLE_SIZE(128) 再 检 



























































查 。 直 至 获得 未 使 用 的 端口 号 。 此 函数 执行 结果 如 上 图 。 








在 此 要 提醒 读者 的 是 RAW IP 也 有 相关 的 hash 函数 和 hash 表 (参见 前 面 inet. create 函数 )， 


























分 别 是 raw_v4_hash 和 raw_v4_htable,RAW IP 的 hash 表 大 小 为 MAX_INET_PROTOS(256), ping 


的 应 用 使 用 了 ICMP (1) 的 位 置 。 























5.1.4 接收 代码 
从 内 核 的 方向 来 说 ， 那 么 udp rev. 是 头 ， 在 其 中 先 查 找 对 应 的 sock{}， 然 后 通过 









































udp_queue_rcv_skb 函数 把 报 文 放 入 进程 的 等 待 队列 。 


sock{}， 那 说 明 此 报 文 有 主 ， 如 果 没 有 找到 ， 那 么 它 属于 无 人 理会 的 报 文 ， 该 丢弃 就 丢弃 。 








udp_rcv 














udp_v4_lookup 


























udp_v4_lookup_longway 

















udp queue rcv skb 


























Sock queue rcv skb 








图 表 5-3 udp rcv 函数 调用 树 























上 文 已 经 说 过 ，udp_hash 表 存 放 着 用 户 打 开 的 sock{} 结 构 ， 如 果 能 在 接收 时 查找 到 对 应 的 

































































YAU BWNE 





static struct sock *udp v4 lookup longway(u32 saddr, ul6 sport, 
0512. plexelohs. edb(ó or aeu (iE) 

{ 

struct sock *sk, *result = NULL; 

struct hlist_node *node; 

unsigned short hnum = ntohs (dport); 

int badness = -1; 

搜索 整个 hash X 

















Sk for each(sk, node, &udp hash[hnum & (UDP HTABLE SIZE - 1)]) { 


struct inet sock *inet = inet sk(sk); 
if (inet-»num == hnum) { 
int score = (sk-»sk family == PF INET ? 1 : 0); 
te Giner- >r Seeker) 1 
if (inet->rcv_saddr != daddr) 
continue; 


scoret=2; 


if (inet->daddr) { 
if (inet->daddr != saddr) 
continue; 
scoret=2; 


if (inet->dport) { 
wie (lngie=Scloorwe l= gsx) 
continue; 
Score-t-2; 


LP (Sk=rsk bound dev if) 1 
if (sk->sk_bound_dev_if != dif) 
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2305 continue; 

t p Ue scoret=2; 

SOR ) 

ds if(score == 9) { 

34. result = sk; 

Sor break; 

uos } else if(score > badness) { 
Sales result = sk; 

Scr badness = score; 
39). } 

40. } 

2d. e) 

42. return result; 

43. } 





代码 段 5-4 udp v4 lookup longway 函数 
































上 面 是 内 核 往 用 户 方向 的 函数 处 理 过 程 ， 下 面 是 用 户 面 往 内 核 方向 的 函数 处 理 流程 。 如 何 知 
道 一 个 套 接口 的 接收 队列 中 有 多 少数 据 排队 呢 ? 有 三 种 方法 。 
a. 如 果 在 没有 数据 可 读 时 还 有 其 他 事情 可 做 ， 为 了 不 阻塞 在 内 核 中 ， 可 以 使 用 非 阻塞 LO. 















































































































































b. 如 果 想 检查 一 下 数据 而 使 数据 流 在 队列 中 可 以 使 用 MSG_PEEK 标志 。 

c. ioctl 中 的 FIONREAD 命令 。 返 回 套 接口 接收 队列 中 数据 的 字 节 数 。 之 前 大 家 可 以 套用 之 前 RAW 
IP 的 send 解析 ,找到 udp_recvmsg, 它 调 用 的 是 skb_recv_datagram。 这 里 要 注意 的 是 inet_recvmsg 
在 2.6.14 之 后 换 成 sock_common_recvmsg， 现 在 不 过 换 了 个 函数 名 。 
































































































































d. fes 

xe * skb_recv_datagram 一 接收 一 个 数据 报 skbuff 

Se * @sk: socket 

4. * @flags: MSG_ flags 

Bc * @noblock: blocking operation? 

6. * @err: error code returned 

TRE = 

&. * ” 当 一 个 skb 返回 以 后 该 函数 会 锁 住 socket, 所 以 调用 者 需要 解锁 , 通常 调用 skb. free datagram) 

Qr " 

10. * * 直到 现在 还 没有 锁 住 socket， 该 函数 没有 处 理 抢占 的 情况 ， 这 种 做 法 应 该 /可 能 在 高 负载 情况 下 极 
大 的 提高 数据 报 文 socket 的 延迟 ， 这 是 因为 把 内 核 空间 的 数据 揽 贝 到 用 户 空间 会 消耗 大 量 时 间 。 

Mibe, ES fe --ANK (980729) 

AZ 0 

13. * The order of the tests when we find no data waiting are specified 

14. * quite explicitly by POSIX 1003.1g, don't change them without having 

15. * the standard around please. 

LG. ww 


17. struct sk buff *skb recv datagram(struct sock *sk, unsigned flags, 


18 . int noblock, aint *err) 

i95 ¢{ 

205 Struc Sie dois Se 

21 long timeo; 

22 

23 timeo = sock rcvtimeo(sk, noblock); 

24 

DID Go i 

26 /* Again only user level code calls this function, so nothing 
Ail * interrupt level will suddenly eat the receive_queue. 
28 ul 

DO * Look at current nfs client by the way... 

SD * However, this function was corrent in any case. 8) 
Sq S 

3S2» if (flags & MSG PEEK) { 

33s unsigned long cpu flags; 

34 skb = skb peek(&sk-»sk receive queue); 

S5 if (skb) 

S RSS eee 
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aos ) else 
237 skb = skb_dequeue (&sk->sk_receive_queue); 
39. 
40. if (skb) 
41. return skb; 
423. ays Ske eee 
43: } while (!wait_for_packet(sk, err, &timeo)); 
44. 
45. return NULL; 
46. 
47. no_packet: 
48. return NULL; 
49. } 
代码 段 5-5 skb_recv_datagram 函数 

我 们 已 经 知道 可 以 用 __skb_pull 剥 去 IP 首部 (我 们 可 以 通过 skb->nh.raw 找到 它 )。 最 后 ， 
skb->h.raw 指向 data, Bl udp 首部 ，udp 首部 其 实 到 最 后 都 没有 被 剥 去 ， 应 用 程序 在 调用 recv 接 
收 数据 时 ， 直 接 从 skb->datatsizeof(struc udphdr) 的 位 置 开 始 找 贝 。 

recv 和 send 函数 提供 了 和 read 和 write 差不多 的 功能 .不 过 它们 提供 了 第 四 个 参数 来 控制 读 写 
操作 . 

int recv(int sockfd,void *buf,int len,int flags) 

int send(int sockfd,void *buf,int len,int flags) 

前 面 的 三 个 参数 和 read, write 一 样 ,第 四 个 参数 可 以 是 0 或 者 是 以 下 的 组 合 : 

| MSG_DONTROUTE | 不 查找 路 由 表 ， 是 send 函数 使 用 的 标志 .这 个 标志 告诉 IP. 协议 .目的 
主机 在 本 地 网 络 上 面 ,没有 必要 查找 路 由 表 . 这 个 标志 一 般 用 网 络 诊断 和 路 由 程序 里 面 . 

| MSG_OOB | 接受 或 者 发 送 带 外 数据 | 

| MSG_PEEK | 查看 数据 ,并 不 从 系统 缓冲 区 移 走 数据 : 是 recv 函数 的 使 用 标志 ,表示 只 是 从 系 
统 缓冲 区 中 读 取 内 容 , 而 不 清楚 系统 缓冲 

| MSG_WAITALL | 等 待 所 有 数据 : 是 recv 函数 的 使 用 标志 ,表示 等 到 所 有 的 信息 到 达 时 才 返 
回 .使 用 这 个 标志 的 时 候 recv 回 一 直 阻 塞 ,直到 指定 的 条 件 满足 ,或 者 是 发 生 了 错误 : 1) 当 读 到 了 指 
定 的 字 节 时 ,函数 正常 返回 .返回 值 等 于 len; 2) 当 读 到 了 文件 的 结尾 时 ,函数 正常 返回 .返回 值 小 于 
len; 3) 当 操作 发 生 错 误 时 ,返回 -1, 且 设置 错误 为 相应 的 错误 号 (errno) 

如 果 flags 为 0, 则 和 read,write 一 样 的 操作 .还 有 其 它 的 几 个 选项 ,不 过 我 们 实际 上 用 的 很 少 ,可 
以 查看 Linux Programmer's Manual 得 到 详细 解释 . 

5.1.5 释放 UDP 的 socket 
网 络 系统 作为 一 个 特殊 的 文件 系统 存在 ， 不 可 避免 的 要 和 VES 打交道， 那么 在 关闭 socket 时 











特别 要 关注 socket_file_ops 这 个 特别 重要 的 全 局 变量 。 























应 用 








民 调 用 








close 这 个 系统 调用 的 时 候 产 生 作 用 。 
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它 是 VFS 和 网 络 子 系统 的 连接 器 ， 








特别 在 
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VFS 








socket_file_ops 











release 




















sock_close 

















sock_fasync 














sock_release 























sock->ops->release 








图 表 5-4 release 函数 








inet_release 

















sk->sk_prot->close 











udp close 




















sk common release 

















sk->sk_prot->destroy NULL 




















sk->sk_prot->unhash udp_v4_unhash 


























sock_orphan 











图 表 5-5 inet release 函数 调用 树 





要 注意 的 是 关闭 raw IP 时 使 用 的 也 是 sk_common_release， 而 且 SCTP 类 型 的 socket 也 是 调 
用 这 个 函数 去 关闭 。 但 是 ，TCP 不 是 这 样 ， 它 相对 复杂 ， 我 们 会 在 下 一 节 介 绍 。 

前 面 曾 经 说 过 ，udp_hash{} 这 个 全 局 数据 结构 存放 系统 中 使 用 的 port 号 信息 ， 这 是 在 
udp_v4_get_port 中 完成 插入 操作 的 。 现 在 到 了 要 把 port 释放 的 时 候 了 ， 但 是 搜 编 整个 代码 ， 没 有 
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看 到 其 它 udp_hash 出 现 的 地 方 ， 难 道 Linux 涉及 者 容许 port 号 只 使 用 一 次 ? 非 也 非 也 ， 实 际 上 的 
操作 在 udp_v4_unhash 中 ， 此 函数 调用 sk del node init, F X UH]. sk del node init, 


















































1. static . inline | int . sk del node init(struct sock *sk) 
ZEE 
判断 此 节点 是 否 真 的 挂 在 链表 上 
SE if (sk_hashed (sk) ) 
就 在 此 处 从 udp hash 中 删 掉 自己 ， 为 将 来 能 再 次 使 用 该 port 准备 。 
. Sk del node(s 
Sk node init(&sk-»sk node); 
return 1; 















































. hlist del(&sk-»sk node); 


} 


return 0; 





OANA Us 





代码 段 5-6 sk del node init 函数 

















虽然 没有 提 到 udp hash 这 个 全 局 变量 ， 但 是 不 要 起 了 sk node 是 一 个 双向 链表 ， 那 么 聪明 的 
读者 该 知道 _sk_del_node 中 做 什么 了 吧 ? 
































5.2 ”更 高 阶 的 TCP 

TCP 和 UDP UWA WME, 被 设计 为 做 不 同 的 事情 。 二 者 的 共性 是 都 使 用 DP 作为 其 
网 络 层 协议 。TCP 和 UDP 之 间 的 主要 差别 在 于 可 靠 性 。 TCP 是 高 可 用 性 的 ,而 UDP 是 一 个 简单 
的 、 尽 力 数 据 报 转发 协议 。 这 个 基本 的 差别 暗示 TCP 更 复杂 ， 需 要 大 量 功能 开销 ， 然 而 UDP 是 
简单 和 高 效 的 。 建 立 一 个 socket， 如 果 没 有 用 它 来 监听 连 入 请 求 ， 那 么 就 能 用 它 来 发 连 出 请 求 。 
对 于 面向 无 连接 的 协议 如 UDP 来 说 ， 这 一 socket 操作 并 不 做 许多 事 ， 但 对 于 面向 连接 的 协议 如 
TCP 来 说 ， 这 一 操作 包括 了 在 两 个 应 用 间 建 立 一 个 虚 连 接 。 


5.2.1 TCP 用 户 代码 

TCP 跟 UDP 不 一 样 的 地 方 就 是 : TCP 是 一 个 数据 流 ，UDP 是 数据 报 

TCP 的 recv 的 字 节 数 可 以 是 多 少 就 是 多 少 ， 只 要 对 方 有 发 送 ， 不 是 按 send 的 次 数 来 recv 的 ， 
是 按 发 送 的 字 节 数 来 recv 的 ， 也 就 是 说 你 可 以 一 方 进行 十 次 send 调用 ， 每 次 发 送 5 个 byte， 而 接 
收 方 可 以 一 次 recv 50 个 byte， 也 可 以 50 次 recv， 每 次 一 个 bytes UDP 的 sendto 与 recvfrom 的 次 
数 是 对 应 的 ， 一 次 sendto 就 是 一 个 数据 报 ， 这 个 数据 包 就 只 能 recvfrom 一 次 ， 你 不 要 想 着 分 儿 次 
来 recvfrom, 那 是 不 可 能 的 ,除非 你 自己 实现 的 协议 栈 。 即 使 用 MSG_PEEK, 你 也 不 要 想 着 recvfrom 
部 分 数据 ，UDP 数据 包 是 有 边界 的 。 先 看 看 一 般 的 TCP 应 用 程序 是 如 何 交 互 的 ， 下 面 是 两 份 伪 
代码 ， 分 别 是 服务 器 端 和 客户 端的 代码 : 





























































































































































































































服务 器 端 典 型 代码 


Socket(..., SOCK STREAM, 0) 











客户 端 典 型 代码 


Socket(..., SOCK STREAM, 0); 











bind(..., &servaddr, ...) connect( ) 


listen(...) 


send(..., &servaddr, ...); 





accept(..., &clientaddr, ...); 


recv(..., &clientaddr, ...); 














和 UDP JEF B POS EE]. Pitt dU I — listen 和 accept， 客 户 端 多 了 一 个 
connect。 这 几 个 函数 底下 完成 什么 工作 呢 ? 本 章 就 尝试 回答 这 个 问题 。 
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5.2.2 TCP 数据 报 文 格式 





传输 控制 协议 (TCP ) 提 供 了 可 靠 的 报 文 流传 输 和 对 上 层 应 用 的 连接 服务 ，TCP 使 用 顺序 的 应 
答 ， 能 够 按 需 重 传 报 文 。 如 果 不 计 任 选 字段 ， 它 通常 是 2 0 hE 

















































































































TCP 头 如 下 所 示 : 
0800 IP 3k Payload 
16b 源 端口 号 16b 目的 端口 号 
32b 序列 号 
32b 确认 序号 
4b3. | 6b | U| A| PIRI S/F 
BBE | fe | R/C] S| S| YI 16b 窗口 大 小 
fe | 留 |GIKIHITINN 
16b 校 验 和 16b 紧急 指针 
选项 
内 容 








图 表 5-6TCP 数据 报 文 格式 

















每 个 TCP 段 都 包含 源 端 和 目的 端的 端口 号 , 用 于 寻找 发 端 和 收 端 应 用 进程 。 这 两 个 值 加 上 IP 
首部 中 的 源 端 IP 地 址 和 目的 端 IP 地 址 唯一 确定 一 个 TCP 连接 。 
有 时 ， 一 个 IP 地 址 和 一 个 端口 号 也 称 为 一 个 插口 (socket)。 这 个 术语 出 现在 最 早 的 TCP 规 
范 (RFC 793) 中 ， 后 来 它 也 作为 表示 伯克利 版 的 编程 接口 。 插 口 对 (socket pair) (包含 客户 IP 
地 址 、 客 户 端口 号 、 服 务 器 IP 地址 和 服务 器 端口 号 的 四 元 组 ) 可 唯一 确定 互联 网 络 中 每 个 TCP XE 
接 的 双方 。 

序号 用 来 标识 从 TCP 发 端 向 TCP 收 端 发 送 的 数据 字 节 流 ， 它 表示 在 这 个 报 文 段 中 的 的 第 一 
个 数据 字 节 。 如 果 将 字 节 流 看 作 在 两 个 应 用 程序 间 的 单 向 流动 ， 则 TCP 用 序号 对 每 个 字 节 进行 计 
数 。 序 号 是 32 bit 的 无 符号 数 ， 序 号 到 达 27—1 后 又 从 0 开始 。 

当 建立 一 个 新 的 连接 时 ， SYN 标志 变 1。 序 号 字段 包含 由 这 个 主机 选择 的 该 连接 的 初始 序号 
ISN (Initial Sequence Number)。 该 主机 要 发 送 数 据 的 第 一 个 字 节 序号 为 这 个 ISN 加 1， 因 为 SYN 
标志 消耗 了 一 个 序号 《将 在 下 章 详细 介绍 如 何 建立 和 终止 连接 ， 届 时 我 们 将 看 到 FIN 标志 也 要 
用 一 个 序号 )。 

既然 每 个 传输 的 字 节 都 被 计数 ， 确 认 序号 包含 发 送 确认 的 一 端 所 期 望 收 到 的 下 一 个 序号 。 因 
此 ， 确 认 序 号 应 当 是 上 次 已 成 功 收 到 数据 字 节 序号 加 1。 只 有 ACK 标志 《下面 介 绍 ) 为 1 时 确认 
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序号 字段 才 有 效 。 


发 送 ACK 无 需 任 
分 。 因 此， 我 们 看 到 一 
lo 


EM 
ya 
部 


过 


TCP 为 应 用 层 提 供 全 双 工 服务 。 这 意味 数据 能 在 两 个 方向 上 独立 地 进行 传输 。 




















可 代价 ， 
日 一 
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因为 32 bit 的 确 
个 连接 建立 起 来 ， 这 个 字段 总 是 被 设置 ， 


py 














认 序 号 字段 和 ACK 标志 
































因此 ， 连 接 的 









































每 一 端 必须 保持 每 个 方向 上 的 传输 数据 序号 。 
TCP 可 以 表述 为 一 个 没有 选择 确认 或 否认 的 滑动 窗口 协议 我 们 说 TCP 缺少 选择 确认 是 因为 
TCP 首部 中 的 确认 序号 表示 发 方 已 成 功 收 。 
到 字 节 ， 但 还 不 包含 确认 序号 所 指 的 字 节 。 当 前 还 无 法 对 数据 流 中 选 定 的 部 分 进行 确认 。 例 
如 ， 如 果 1 一 1024 字 节 已 经 成 功 收 到 ， 下 一 报 文 段 中 包含 序号 从 2049 一 3072 的 字 节 ， 收 端 并 不 能 




















确认 这 个 新 的 报 文 段 。 它 所 能 做 的 就 是 发 回 一 个 确认 序号 为 1025 的 ACK。 它 也 无 法 对 一 个 报 文 


段 进 行 否 认 。 例 如， 如 果 收 到 包含 1025~2048 字 节 的 报 文 段 ， 但 它 的 检验 和 错 ， 














eu 
He 




















段 占 4 bit, 
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jr 





了 
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的 














TCP 首 


KERERE — A 
首部 长 度 给 出 首部 
因此 TCP 最 多 有 60 字 节 上 
部 中 有 6 个 标志 比特 。 








TCP II i sd 


口 





E A 



































32 bit 字 的 数 


角 认 序号 为 1025 的 ACK. 














TCP 接收 端 所 










































































由 由 连接 的 每 
认 序 号 字段 指明 的 值 ， 这 个 值 是 接收 端正 期 望 接收 的 字 节 
大 小 最 大 为 65535 字 节 

检验 和 覆盖 了 整个 的 TCP 报 文 段 : 
计算 和 存储 ， 并 1 
只 有 当 URG 标志 置 


收 端 进行 验证 。 
1 时 紧急 指针 才 有 效 。 














端 通过 








相 加 表示 紧急 数据 最 后 











最 凋 见 的 可 选 字段 是 最 长 报 文大 小 ， 
首 信 的 第 一 个 报 文 段 〈 为 建立 连接 而 设置 SYN 标志 的 


都 在 通 


目 。 需 要 这 个 值 


H 


因为 任 选 字段 的 长 度 是 可 变 的 。 这 个 字 











声明 的 窗 


TCP 首部 和 TCP 数据 。 这 是 一 个 强 甫 
TCP 检验 和 的 计算 和 UDP 检验 和 


又 称 为 MSS (Maximum Segment Size). 








AE 





首部。 然而， 没有 任 选 字段 ， 正 常 的 长 度 是 20 字 节 
它们 中 的 多 个 可 同时 被 设置 为 1。 





























在 随后 的 章节 中 有 更 详 旨 














大 小 来 提供 。 
窗口 大 小 是 一 个 16 bit 字段 ， 


窗口 大 小 为 字 节 数 ， 起 始 于 确 
因而 窗 


























I 性 的 字段 ， 
的 计算 相似 。 
I 序号 字段 中 的 值 

















紧急 指针 是 一 个 正 的 偶 


hio tg 





FA, 





个 字 贡 的 序号 。TCP 的 紧急 方式 是 发 送 端 向 另 一 端 发 送 紧急 数据 的 一 种 





ne 


"m 











oe 











所 能 接收 的 最 大 长 度 的 报 文 段 。 
DIN E 


从 上 图 中 我 们 注意 到 TCP 报 文 段 中 的 数据 部 分 是 可 选 的 。 我 们 将 在 下 一 节 看 到 在 一 个 连接 建 
个 连接 终止 时 ， 双 方 交 换 的 报 文 段 仅 有 TCP 首部 。 如 果 一 方 没 有 数据 要 
任何 数据 的 首部 来 确认 收 到 的 数据 。 在 处 理 


并 和 一 











个 段 ) 中 指明 这 个 选项 。 它 指明 本 端 























发 送 ， 也 使 用 没有 









































5.2.3 TCP f£ & socket 的 初始 化 



























































超时 的 许多 情况 中 ， 





也 会 发 送 不 带 任何 数据 的 报 文 段 
































不 知 大 家 注意 到 没 ，UDP 协议 没有 特殊 的 初始 化 例 程 ， 而 跟 TCP 有 关 的 初始 化 似乎 比较 多 ， 
难道 UDP 是 后 娘 养 的 ? 不 管 怎样 ，UDP 那 一 章 没 有 初始 化 的 内 容 ， 而 TCP 倒 有 ， 系 统 在 启动 时 
就 有 初始 化 TCP 协议 栈 的 动作 ， 即 在 inet init 函数 中 通过 两 步 实现 ， 下 面 就 是 第 一 步 一 一 调用 
tcp_v4_init: 

1. void _ init tcp v4 init(struct net proto family *ops) 
2- { 











Sr 





ixH 





创建 的 socket 超出 了 本 文 的 内 容 ， 大 家 可 以 跳 过 。 





^s 
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4. int err = sock create(PF INET, SOCK RAW, IPPROTO TCP, &tcp socket, 0); 
5. } 
代码 段 5-7 tcp_v4_init 函数 

上 面 的 函数 没有 完成 什么 实际 的 工作 ， 那 第 二 步 呢 ? 第 二 步 是 调用 tcp. init 函数 : 
Lo Voro iake geo Enae ASSL) 
2E 
3 struct sk_buff *skb = NULL; 
4. unsigned long limit; 
or int order, i, max_share; 
Ce 
x if (sizeof(struct tcp skb cb) > sizeof(skb-»cb)) 
8. Skb cb too small for tcp(sizeof(struct tcp skb cb), 
2. sizeof(skb-»cb)); 

主要 是 申请 3 块 内 存 ， 分 别 为 TCP 所 需 的 hash 4 
1L9) tcp hashinfo.bind bucket cachep - 
Top S kmem cache create("tcp bind bucket", 
deg sizeof(struct inet bind bucket), 0, 
3% SLAB HWCACHE ALIGN, NULL, NULL); 
14. 
15. /* Size and allocate the main established and bind bucket 
16. * hash tables. 
Ms, F 
18. * The methodology is similar to that of the buffer cache. 
12), 87) 
20 tcp_hashinfo.ehash = 
zb alloc large system hash("TCP established", 
2 sizeof (struct inet ehash bucket), 
23 thash_entries, 
24 (num_physpages >= 128 * 1024) ? 
25 13 £g 15; 
26 HASH HIGHMEM, 
27] &tcp hashinfo.ehash size, 
28 NULL, 
DOM ONE 
BOS tcp_hashinfo.ehash_size = (1 << tcp_hashinfo.ehash_size) >> 1; 
Sis for (i = 0; i < (tcp_hashinfo.ehash_size << 1); i++) { 
323 INIT HLIST HEAD(&tcp hashinfo.ehash[i].chain); 
33. ) 
34. 
SOs tcp_hashinfo.bhash = 
36. alloc_large_system_hash("TCP bind", 
d" sizeof(struct inet bind hashbucket), 
295 tcp_hashinfo.ehash_size, 
39. (num physpages »- 128 * 1024) ? 
40. bss. doris 
41. HASH HIGHMEM, 
am c &tcp hashinfo.bhash size, 
AS) . NULL, 
44. 64 * 1024); 
45. tcp hashinfo.bhash size = 1 << tcp hashinfo.bhash size; 
46. iue (a e (rp A « WE Iewewelechguro).lsimewslm ship. du) d 
AT INIT HLIST HEAD(&tcp hashinfo.bhash[i].chain); 
48. ) 

以 上 的 参数 分 别 为 : 

TCP estableished hash 表 项 为 65535 Jl, bind hash 表 项 为 32768 项 

注册 拥塞 控制 处 理 函 数 ， 我 们 会 在 后 面 的 章节 中 介绍 
49, tcp register congestion control(&tcp reno); 
50. } 





代码 段 5-8 tcp. init 函数 





而 在 系统 部 分 完成 TCP 的 初始 化 后 ， 这 些 准备 工作 还 不 足以 为 客户 提供 一 个 完美 的 TCP 
socket, 所 以 当 要 真 的 使 用 TCP IY, TCP 本 身 让 用 户 在 创建 socket 时 有 一 个 初始 化 socket 的 动作 ， 








tt 
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这 个 动作 在 用 户 调用 socket 系统 函数 时 ， 借 由 其 中 的 inet_create 函数 完成 ， 请 读者 参考 此 函数 的 











第 85 fT (sk->sk_prot->init ()). Tcp 的 init 函数 指针 指向 tcp_v4_init_sock， 代 人 码 如 下 : 








0o -10|01 5 0 IN P 


VE INOS IN Jere re Sie eo meio) Shysllaesielhy loyy Celik wo 
i Sk alloc() so need not be done here. 
m 
Static int tcp v4 init sock(struct sock *sk) 
{ 
struct inet connection sock *icsk = inet csk(sk); 
SELIG (ep. Sole “ej = xen fus Uis) p 


Skb queue head init(&tp-»out of order queue); 
tcp init xmit timers(sk); 
tcp prequeue init (tp); 


IOS SLs aeuo = WE oL EN I 
tp->mdev = TCP_TIMEOUT_INIT; 





/* So many TCP implementations out there (incorrectly) count the 
* initial SYN frame in their delayed-ACK and congestion control 
* algorithms that we must have the following bandaid to talk 
* efficiently to them. -DaveM 
Sy 

tp->snd_cwnd = 2; 








/* See draft-stevens-tcpca-spec-01 for 
discussion of the 
* initialization of these values. 











Itcp congestion ops 
Itcp init congestion ops 











x/ .name Umm 
tp-»snd ssthresh = Ox7fffffff; /* Infinity | ?5^hresh = tcp_reno_ssthresh, 
tp-»snd cwnd clamp - -0; “Cong avoid tcp.reno cong avoid, 
tp-»mss cache = 536; M = tcp reno min cwnd, 
, 
tp-»reordering = sysctl tcp reordering4 
icsk-»icsk ca ops = &tcp init congestion ops; 
struct inet connection sock af ops 
Sk-»5sk state = TCP CLOSE; ipv4 specific = { 
.queue xmit = ip queue xmit, 
Sk-»sk write space = sk stream write spajg.rebuild header-inet sk rebuild header, 
Sock set flag(sk, SOCK USE WRITE QUEU ; .conn request -tcp v4 conn request, 
.Syn recv sock-tcp v4 syn recv sock, 
icsk-»icsk af ops = &ipv4 specifico; .net header len-sizeof (iphdr) " 
.setsockopt = ip setsockopt, 
return 0; .addr2sockaddr-inet csk addr2sockaddr, 
} .sockaddr_len=sizeof (sockaddr_in), 























代码 段 5-9 tcp_v4_init_sock 函数 





这 个 初始 化 步骤 主要 指定 关于 TCP 协议 栈 内 部 一 些 函 数 集合 ， 这 样 可 以 根据 系统 实际 情况 配 























E. TCP 协议 运行 于 哪 一 个 下 层 协议 之 上 。 由 于 目前 TCP 主要 在 IP 之 上 运行 ， 那 么 其 icsk_af_ops 

















指向 了 ipv4_specific 这 个 数据 结构 。 如 果 那 一 天 要 跑 在 IPv6 之 上 就 把 这 个 指针 指向 IPv6 的 相关 
的 操作 集合 之 上 。 




















到 这 里 ， 关 于 TCP 我 们 应 该 具体 看 看 TCP 有 关系 统 调用 的 内 容 了 。 
5.2.4 ”服务 器 端 bind 和 listen 的 实现 

listen 系统 调用 的 声明 如 下 : int listen(int sockfd, int queue_length); 

需要 在 此 前 调用 bind O PR CAE sockfd 绑 定 到 一 个 端口 上 ， 否 则 由 系统 指定 一 个 随机 的 端口 。 

接收 队列 : 一 个 新 的 Client 的 连接 请 求 先 被 放 在 接收 队列 中 ， 直 到 Server 程序 调用 accept K 
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数 接受 连接 请 求 。 





























第 二 个 参数 queue_lengtp， 指 的 就 是 接收 队列 的 长 度 也 就 是 在 Server 程序 调用 accept 函数 之 
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前 最 大 允许 的 连接 请 求 数 ， 多 余 的 连接 请 求 将 被 拒绝 。 




















关于 bind 的 inet 实现 已 经 在 上 一 节 UDP 中 介绍 了 ， 我 们 现在 把 bind 和 listen 合 在 一 节 中 介 





























绍 是 有 原因 的 。 原 因 在 于 ，TCP 内 部 的 bind 和 listen 关系 比较 密切 。 因 为 这 两 个 系统 调用 都 会 操 





















































作 一 个 全 局 数据 结构 : tcp_hashinfo。 而 且 从 内 核 代 码 中 可 以 看 出 ， 只 有 TCP 协议 有 listen 接口 
剩 下 UDP 和 RAW IP 是 不 支持 的 ， 这 样 我 们 可 以 集中 精力 研究 listen 在 inet 层 的 实现 。 


















































sys_listen 

















sockfd_lookup 

















sock->ops->listen 











inet_listen 











图 表 5-7 sys listen 函数 调用 树 
























































































































































hy ff 
2. * 把 一 个 socket 改变 到 侦 听 状态 . 
3. i 
4. int inet listen(struct socket *sock, int backlog) 
ae i 
Ge struct sock *sk = sock-»sk; 
Tks unsigned char old_state; 
$c int err; 
9 
要 保证 此 时 sock 的 状态 和 类 型 ， 用 户 不 能 在 客户 端 和 服务 器 端 连接 后 重复 调用 listen 
EOM if (sock-»state !- SS UNCONNECTED || sock->type != SOCK STREAM) 
des goto out; 
还 要 保证 在 TCR 关闭 或 处 于 LISTEN 状态 才能 继续 
Ao, old state = sk->sk_state; 
3. TERCIE Volidmistatke) i ca (LCPEECEhOSH | TCPF_LISTEN) ) ) 
TAR goto out; 
LS. 
16. /实际 上 , 只 有 当 socket 处 于 listen 状态 时 我 们 才能 去 调整 bakclog 的 大 小 , M4 RAMI 
状态 才能 调用 第 19 行 的 函数 
dy. s/f 
Em if (old state != TCP LISTEN) { 
LS). err = inet_csk_listen_start (sk); 
20r eee 
Zale } 
backlog 是 由 用 户 指定 的 
22 sk->sk_max_ack_backlog = backlog; 
DIS err = 0; 
24 
BS OUTS: 
26 release sock(sk); 
277] return err; 
ABs }} 





CLOSE 








4&83E& 5-10 inet listen 函数 


inet csk listen, start 的 代码 实现 : 





1. int inet csk listen start(struct sock *sk, const int nr table entries) 


N 


{ 


w 


struct inet_sock *inet = inet_sk (sk); 
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4. struct inet connection sock *icsk - inet csk(sk); 

b int rc = reqsk_ queue alloc(&icsk-»icsk accept queue, nr table entries); 
6 . 

TES sk->sk_max_ack_backlog = 0; 

oc Sk-»5sk ack backlog = 0; 

EA inet csk delack init(sk); 

iLO. 


11. /* There is race window here: we announce ourselves listening, 
lA, han stoi ale} fhE3LILIL mow swedbxoeleuee low emu jer). 
13. * It is OK, because this socket enters to hash table only 

14. * after validation is complete. 













































































dio. w/ 

16. Sk-»5»sk state = TCP LISTEN; 

ipo if (!sk-»sk prot-»get port(sk, inet-»num)) { 

Ts inet-»sport = htons (inet-—>num) ; 

IS) 

2O) « Sk dst reset(sk); 
要 么 把 自己 加 入 到 tcp_hashinfo 中 的 enash 中 ， 要 么 加 入 到 1istening hash 中 ， 这 要 根据 
sk state 的 值 来 操作 ， 如 果 是 LISTEN， 就 加 入 后 者 ， 如 果 是 除 LISTEN 之 外 的 值 ， A 就 加 入 
ehash 表 ， 我 们 会 在 研究 connect 的 代码 中 看 到 。 

2L c Sk-»sk prot-»hash(sk); 

22€ 

23. return 0; 

24. ) 

2 

26 . sk->sk_state = TCP CLOSE; 

Liles reqsk_queue_destroy (&icsk->icsk_accept_queue) ; 

AIS} return -EADDRINUSE; 

2). }} 





代码 段 5-11 inet csk listen start 函数 



































此 时 的 sk. prot2 get. port 指 的 是 tcp_v4_get_port。 它 只 是 简单 的 调用 了 inet csk get port, Jf 
将 tcp_hashinfo 传 入 其 中 。 下 面 这 副 图 归纳 了 UDP 和 TCP 下 bind 4I listen 的 用 处 ,它们 会 调用 各 
自 的 get port 函数 ， 但 是 注意 的 是 udp. prot2 bind 和 tep_proto>bind 这 两 个 函数 指针 都 是 NULL。 




































































bind listen 
Y Y 
inet bind inet listen 

























内 部 处 理 udp tcp, 


udp_hash 表 "d 


udp v4 get port tcp v4 get port 


内 部 处 理 
tcp_hashinfo 


























图 表 5-8 bind 和 listen 都 要 调用 tcp_v4_get_port 函数 








在 TCP F, bind 和 listen 居然 都 调用 了 getport， 这 是 怎么 回 事 ? 让 我 们 先 了 解 一 下 
tcp_hashinfo 结构 : 
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tcp_hashinfo 


ehash bhash 








listening_hash 























INET LHTABLEZSIZE 
即 32 个 表 项 




















32768 














65535 
































图 表 5-9 tcp_hashinfo 中 的 内 部 数据 结构 





下 面 是 inet_csk_get_port 函数 ， 传 入 它 的 bind, conflict 参数 是 inet_csk_bind_conflict， 它 有 什 





































































































么 用 呢 ? 
qu 
2. /* Obtain a reference to a local port for the given sock, 
gu * 如 果 snum 是 0， 那 么 意味 着 可 以 选择 任何 有 效 的 port 
4. wl 
5. int inet csk get port(struct inet hashinfo *hashinfo, 
6. Struct sock *sk, unsigned short snum, 
poe int (*bind-contlrotj)tconst struct Sock *sk; 
B const Struct inet bind bucket *tb)) 
OPE 
HOR struct inet bind hashbucket *head; 
ils struct hlist_node *node; 
IW 6 struct inet_bind_bucket *tb; 
ES int ret; 
14. 
WS qp OU sum 二 

客户 端的 代码 一 般 会 进入 此 分 文 ， 因 为 客户 端 基本 上 都 不 知道 将 会 得 到 什么 样 的 端口 ， 所 以 干脆 填 个 
0 进来 。 请 参考 UDP 的 get_port 函数 
Gs int low = sysctl local port range[0]; 
dE int high = sysctl local port range[l1]; 
Ans c int remaining = (high - low) + 1; 
T5. int rover = net random() % (high - low) + low; 
20 
2415 dom 
wes head = &hashinfo->bhash[inet_bhashfn(rover, hashinfo-»bhash size)]; 
s inet bind bucket for each(tb, node, &head->chain) 
24 if (tb-»port == rover) 
DIS goto next; 
26 break; 
21 next: 
28 if (++rover > high) 
Zo rover = low; 
SOF ) while (--remaining > 0); 
Sie 
92v /* Exhausted local port range during search? It is not 
33: * possible for us to be holding one of the bind hash 
34. * locks if this test triggers, because if 'remaining' 
SIE drops to zero, we broke out of the do/while loop at 
dO. * the top level, not from the 'break;' statement. 
Se A 
ON ret = 1; 
89. if (remaining <= 0) 
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40. 
41. 


42. 
43. 


44. 
45. 
46. 
47. 
48. 
49. 


5) z 
Sd. c 
BA c 
93. 
54. 
S3 
56. 
Sc 
58. 


597 
60. 
(1L c 
62. 
63. 
64. 
65. 


66. 
67. 
68. 
OD. 
1.08 
akc 
V2 
p 
74. 
ASS 
TG. 
E 


JG c 
WS. 
80. 
81. 
82. 
83. 
84. 


croton orl 


我 们 得 到 了 合法 的 snum fH 

































































snum = rover; 
} else ( 
服务 器 端 代码 进入 此 分 支 ， 但 如 果 是 第 一 次 进入 这 个 函数 的 话 ， 下 面 的 搜索 不 会 找到 任何 结果 
head = &hashinfo->bhash[inet_bhashfn(snum, hashinfo->bhash_size) ]; 
inet bind bucket for each(tb, node, &head-»chain) 
if (tb->port == snum) 


goto tb found; 
} 
tb = NULL; 
所 以 ， 第 一 次 进入 会 跳 转 到 not found 标签 
goto tb not found; 




















tb found: 


if (!hlist empty(&tb-»owners)) { 
if (sk-»sk reuse > 1) 
goto success; 
if (tb->fastreuse > 0 && 

















sk->sk_reuse && sk->sk_state != TCP LISTEN) { 
qoto Success; 

} else { 

Listen 系统 调用 进入 这 个 分 支 ， 它 执行 了 inet_csk_bind_conflict MM. 
rot m 


if (EmwucNMCOUNSENCS (sk, tb)) 
goto fail unlock; 
} 
} 


tb_not_found: 


ret = ils 
在 这 里 创建 对 应 port 的 hash 表 项 
if (!tb && (tb = inet_bind_bucket_create 
(hashinfo-»bind bucket cachep, head, snum)) == NULL) 
eto os DEGO IK 
if (hlist empty(&tb-»owners)) { 











if (sk-»sk reuse && sk-»sk state != TCP LISTEN) 
tb-»fastreuse = 1; 
else 
tb->fastreuse = 0; 
} else if (tb->fastreuse && 
(!sk->sk_reuse | | sk->sk_state == TCP LISTEN)) 
tb->fastreuse = 0; 


Success: 








把 自己 加 入 到 tcp_hashinfo 中 的 bhash X 
if (!inet_csk (sk) ->icsk_bind_hash) 
inet bind hash(sk, tb, snum); 

















ret = 0; 


Taris 


return ret; 








调 
tcp_hashinfo>bhash, Æ sk_prot>get_port 结束 之 后 调 月 


代码 段 5-12 inet_csk_get_port 函数 























用 TCP bind 接口 的 结果 如 上 图 ， 先 通过 inet bind hash. K BFE sock(] HA 
































tcp. hashinfo2 listen hash 中 加 入 自己 。 在 这 里 sk_prot->hash 是 tcp_v4_hash。 














H sk->sk_prot->hash， 它 的 目的 是 分 


my 
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inet_csk_listen_start 








先 把 状态 更 改 : 
sk->sk_state = TCP_LISTEN 











inet_csk_get_port 




















tcp_v4_hash 























inet_hash(&tcp_hashinfo) 



















































目前 还 
| . inet hash inet hash connect 
调用 了 此 函数 
WM ASKALISTENRAS 如 单 sk 是 其 它 状 态 
加 入 到 listen_has Sons 





. sk add node 











图 表 5-10 inet csk listen start 函数 调用 树 


























tcp 的 listen 系统 调用 会 再 次 调用 inet csk. get port 函数 ， 这 时 候 ， 会 在 bhash 表 中 发 现 这 个 
端口 ， 此 时 的 逻辑 是 虽然 这 个 端口 的 fastreuse 等 于 1， 并 且 socket 的 sk. reuse 也 等 于 1， 但 socket 
此 时 已 处 于 TCP. LISTEN 状态 。 处 于 TCP. LISTEN 状态 的 socket 是 不 能 共用 别人 的 端口 号 的 , 所 
以 ， 需 要 调用 inet csk bind conflict 进行 冲突 处 理 。 冲 突 处 理 的 逻辑 是 从 inet bind 
的 owners 中 遍历 绑 定 在 该 端口 上 的 socket, WRA socket 跟 当 前 的 socket 不 是 同一 个 ， 并 且 是 绑 
定 在 同一 个 网 络 设备 接口 上 的 ， 并 且 它 们 两 个 之 中 至 少 有 一 个 的 sk reuse 表示 不 能 被 
重用 ， 或 者 绑 定 在 onwers 上 的 那个 socket 已 经 是 TCP_LISTEN 状态 了 ， 并 且 它 们 两 个 之 中 至 少 
有 一 个 没有 指定 接收 IP 地 址 ， 或 者 两 个 都 指定 接收 地 址 ， 但 是 接收 地 址 是 相同 的 ， 则 冲突 产生 ， 
否则 不 冲突 。 

也 就 是 说 ， 不 使 用 同一 个 接收 地 址 的 socket 可 以 共用 端口 号 ， 绑 定 在 不 同 的 网 络 设备 接口 上 
的 socket 可 以 共用 端口 号 。 或 者 两 个 socket 都 表示 自己 可 以 被 重用 ， 并 且 还 不 在 TCP_LISTEN 状 
态 ， 则 可 以 重用 端口 号 。 
tcp 的 listen 系统 调用 到 达 冲 突 处 理 这 一 步 时 ，owners 上 的 socket 跟 它 明显 是 同一 个 ， 所 以 不 
,继续 执行 , 它 又 重新 把 fastreuse Æ 0, 成 功 返 回 , 所 以 listen 系统 调用 的 这 一 步 是 确保 socket 
ea 号 。 这 是 合理 的 ， 因 为 重用 也 只 是 在 socket 进入 TCP_TIME_WAIT 之 后 ， 它 所 占用 
的 端口 号 能 被 其 它 socket 重用 。 
5.2.5 服务 器 端 accept 的 实现 

的 函数 声明 如 下 : int accept(int sockfd,struct sockaddr *addr,int *addrlen); 
函数 将 响应 连接 请 求 ， 建 立 连 接 并 产生 一 个 新 的 socket 描述 符 来 描述 该 连接 ， 该 连接 用 来 
A 
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函数 返回 新 的 连接 的 socket 描述 符 ， 错 误 返 回 -1 
addr 将 在 函数 调用 后 被 十 入 连接 对 方 的 地 址 信息 ， 如 对 方 的 卫 、 端 口 等 。 

















addrlen 作为 参数 表示 addr 内 存 区 的 大 小 ， 在 函数 返回 后 将 被 十 入 返回 的 addr 结构 的 大 小 。 
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那么 二 
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accept 缺 省 是 阻塞 函数 ， 阻 塞 直 到 有 连接 请 求 。 
内 核 中 创建 TCP 的 socket IT, 会 在 inetsw_array ! 

















accept 就 指向 了 inet_accept。 还 要 记 住 ， 
成 员 函 数 指针 ， 但 都 是 指 风 了 sock no accept. 4 
SRAM listen 的 实现 一 样 。 





















































sys_accept 
sockfd_lookup_light 
" 一 sock_alloc 入 建新 的 sock 给 新 的 连接 
N 
/ N 
: sock_alloc_fd 创建 产 的 fd 给 新 的 连接 
/ 
\ Z 
S 把 新 创建 的 文件 fd 
N 
J sock_attach_fd 上 | 一 和 和 socket 结合 起 来 











一 




















sock->ops->accept N 











inet_accept 














JDP 和 






































sk1->sk_prot->accept 











inet_csk_accept 

















RAW IP 的 socket ops 虽然 指定 了 
E fp HUS 





sock rcvtimeo 




















inet csk wait for connect 




















reqsk queue get child 








图 表 5-11 sys accept 函数 调用 树 


找到 相应 的 proto_ops， 即 inet. stream ops; 

















H. accpet 


Hi: return -EOPNOTSUPP:。 这 种 方 





0 ed G € p Rms IO FS 


Fs 





* “等待 收 到 一 个 连接 请 求 ， 要 避免 竞争 条 件 ， 调 月 


i 


static int inet csk wait for connect(struct sock *sk, 











{ 


Struct 1:6] ONS ES = 
_ WAIT (wait); 








DEFINE 
alque LONT; 








/ 


+ + OX X X x 


Subtle issue: 


[ile SESS 


这 是 真正 的 “唤醒 一 个 等 待 者 ”的 机 制 ; 
Since we do not 
anymore, the common case will 


(sk); 





"race & poll' 


"add wait queue ; 
after any current non-exclusive waiters, 


HO 


S 








Hz 前 必须 要 锁 住 socket 

















long timeo) 











有 一 个 进程 被 唤醒 ， 不 是 所 有 阻塞 在 此 的 ; 





for established sockets 
execute the loop only once. 


exclusive()" 


will be added 
and we know that 











程 。 
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187 * it will always _stay_ after any new non-exclusive waiters 
ner * because all non-exclusive waiters are added at the 
IOR * beginning of the wait-queue. As such, it's ok to "drop" 
20 * our exclusiveness temporarily when we get woken up without 
AIN: * having to remove and re-insert us on the wait queue. 
22. "n 
2:39 iue. (CERES 4i 
24. 把 自己 加 入 到 等 竺 队列， 并 且 设 置 自己 的 状态 是 可 中 断 的 
257 prepare to wait exclusive(sk-»sk sleep, &wait, 
a ee EE hou peu á fastcall signed long __sched schedule_timeout(signed 
28. if (!tp->accept_queue) long timeout) 
295 timeo = schedule tim Eee] . tod 
30. loek sock (Sl); struct timer_list timer; 
SUM err - 0; unsigned long expire; 
326 if (tp->accept_queue) i . 
33. break; switch (timeout) 
34. err = -EINVAL; { 
Soe if (sk->sk_state != TCP_LISTEN) case MAX_SCHEDULE_TIMEOUT: 
85. break; schedule(); 
87i « err = sock intr errno(timeo); goto out; 
38 . if (signal pending (current)) default: 
39. break; 
40. err = -EAGAIN; J «r7 
A. if (!timeo) return timeout < 0 ? 0 : timeout; 
42. break; 
43. ) 
下 面 把 任务 设置 成 TASK_RUNNING 状态 ， 然 后 把 当前 sock 从 等 待 队 列 中 删除 
44. finish wait(sk-»sk sleep, &wait); 
45. return err; 
465 ] 





代码 段 5-13 inet csk wait for connect 函数 








用 户 发 起 的 accept 操作 就 停 在 上 面 schedule timeout 中 ,其 实现 代码 在 右边 框 中 ， 由 于 我 们 一 
般 没 有 设置 timeout 值 , 所 以 是 MAX_SCHEDULE_TIMEOUT 的 情况 ,这 表示 立即 进入 重新 调度 ， 


而 当前 的 进程 可 以 处 于 睡眠 ， 直 到 被 其 它 事 件 唤 醒 。 


5.2.6 客户 端 connect 的 实现 一 一 发 起 三 次 握手 

connect 的 函数 声明 如 下 : int connect(int sockfd, struct sockaddr *serv_addr,int addrlen); 

sockfd 就 不 用 再 说 了 ; serv addr 是 包含 远 端 主机 IP 地 址 和 端口 号 的 指针 ; addrlen 是 远 端 地 
质 结 构 的 长 度 。connect 函数 在 出 现 错误 时 返回 -1， 并 且 设 置 erno 为 相应 的 错误 码 。 进 行 客户 端 
蛙 序 设计 无 须 调用 bind0， 因 为 这 种 情况 下 只 需 知道 目的 机 器 的 IP 地 址 ， 而 客户 通过 哪个 端口 与 
服务 器 建立 连接 并 不 需要 关心 ，socket 执行 体 为 你 的 程序 自动 选择 一 个 未 被 占用 的 端口 ， 并 通知 
你 的 程序 数据 什么 时 候 到 达 端 口 。 
在 探讨 三 次 握手 之 前 ， 我 们 先 澄清 一 个 概念 : UDP 能 调用 connect "4? 答案 是 : 可 以 ! 但 这 
有 什么 意义 吗 ? sys connect 会 调用 inet connect, 当 发 现 是 UDP 协议 调用 的 , 它 会 调用 相关 的 UDP 
函数 。 最 终 调用 了 ip_route_connect， 它 内 部 就 是 去 查找 路 由 cache 表 ， 如 果 找 不 到 ， 就 查找 FIB 
表 ， 如 果 找 到 就 放 入 路 由 cache 中 。 这 不 正 是 我 们 在 讨论 raw_sendmsg 时 已 经 介绍 过 的 内 容 吗 ? 
对 了 ， ees 前 实 也 没什么 新 意 ， 无 非 是 查 路 由 表 嘛 。 

连 出 连接 操作 只 能 由 一 个 在 正确 状态 下 的 INET BSD socket 来 完成 ; 换 名 话说 , socket 

不 能 是 arenes 的 ， 并 且 有 被 用 来 监听 连 入 连接 。 这 意味 着 BSD socket 结构 必须 是 
SS UNCONNECTED 状态 。UDP 协议 没有 在 两 个 应 用 间 建 立 虚 连接 ， 任 何 发 出 的 消息 都 是 数据 
报 ， 这 些 消息 可 能 到 达 也 可 能 不 到 达 目 的 地 。 但 它 不 支持 BSD socket 的 ”connect 操作 。 建 立 
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外 , 它 还 设置 路 由 表 入 口 的 cache 以 便 这 一 BSD socket 在 发 送 UDP AHAH 8 












































LU Linox26 协 以 栈 源 人 9 机 
在 UDP 的 INET BSD socket 上 的 连接 操作 简单 地 设置 远程 应 用 的 地 址 : IP 地址 和 IP 端口 号 。 另 


























(除非 这 一 路 由 已 经 无 效 )。INET sock 结构 中 的 
没有 给 出 地 址 信息 , 缓存 的 路 由 和 IP 地 址 信息 将 自动 地 被 用 来 发 送 消 息 。UDP 将 sock 的 状态 








改 为 TCP_ESTABLISHED。 


























次 查询 路 由 数据 库 


























ip_route_cache “指针 指向 路 由 缓存 信息 。 如 果 


























对 于 基于 TCP BSD socket 的 连接 操作 ，TCP 必须 建立 一 个 包括 连接 信息 的 TCP 消息 ， 并 将 








它 送 到 目的 IP. TCP 消息 包含 与 连接 有 关 的 信息 ， 








的 ， 初 始 的 顺序 号 被 用 来 作为 第 一 消息 号 。Linux 选用 一 个 合理 的 随机 值 来 避 
一 从 TCP 连接 的 一 端 成 功 地 传 到 另 一 端的 消息 要 确 









































个 唯一 标识 的 消息 开始 顺序 号 ， 通 过 初始 化 
主机 来 管理 的 消息 大 小 的 最 大 值 ， 及 发 送 与 接收 窗口 大 小 等 等 。 在 TCP 内 ， 所 有 的 消息 都 是 编号 



































发 送 与 接收 窗口 的 大 小 是 第 一 个 






































外 认 到 达 之 前 消息 























恶意 协议 冲突 。 每 





认 其 已 经 正确 到 达 。 未 确认 的 消息 将 被 重 传 。 


的 个 数 。 消 息 尺 寸 的 最 大 值 与 网 络 设备 有 关 ， 











它们 在 初始 化 请 求 的 最 后 时 刻 确定 下 来 。 如 果 接 收 端的 网 络 设备 的 消息 尺寸 最 大 值 更 小 ， 则 连接 





将 以 小 的 一 端 为 准 。 应 用 程序 发 4H 


TCP sock 期 望 着 一 个 输入 消息 






























































— sock 结构 。TCP 同时 也 开始 计时 ， 当 目标 应 





socket 与 地 址 绑 定 后 ， 能 监听 才 
不 用 先 将 地 址 ”与 之 绑 定 ; 在 这 个 例子 中 , INET 
并 自动 将 它 与 socket RE. HEUT socket 函数 将 socket 状态 设 成 


























JF 
入 连接 所 需要 的 工作 。 



































旨 定 地 址 的 连 入 连接 请 求 。 

















连接 请 求 后 必须 等 待 目 标 应 用 程序 的 接受 或 拒绝 连接 的 响应 。 
, 它 被 加 入 ”tcp_listening_hash ”以 便 输入 TCP 消息 能 被 指向 这 
没有 响应 请 求 ， 则 连 出 连接 请 求 超时 。 












































个 网 络 应 用 程序 能 监听 socket 而 











socket 层 找到 一 个 未 用 的 端 














号 (对 这 一 协议 ) 








TCP LISTEN ， 并 做 其 它 连 





对 于 UDP sockets， 改 变 socket 的 状态 就 是 够 了 ， 而 TCP 现在 加 了 socket 的 sock 数据 结构 
































IP 端口 号 的 hash 函数 来 索引 。 

















到 两 个 hash 表 中 并 激活 ，tcp_bound_hash 表 和 tcp listening hash K. XX} 











丙 个 表 都 通过 一 个 基于 














无 论 何 时 ， 一 个 激活 的 监听 socket 接收 一 个 连 入 的 TCP 连接 请 求 ，TCP 都 要 建立 一 个 新 的 











sock 结构 来 描述 它 。 最 终 接收 时 ， 这 个 sock 
请 求 的 ”sk_buff ， 并 将 它 放 到 监听 sock 结构 的 receive queue 中 排队 。 复 伟 


























一 个 指向 新 建立 的 sock 结构 的 指针 。 
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结构 将 成 为 TCP 连接 的 底层 。 它 也 复制 包含 连接 








| 的 sk buff 包含 
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sys_connect 
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inet connect 












































udp ete 
inet, dgram connect inet stream connect 
ip4 datagram connect tcp. v4 connect 




















il ae 


ip route connect 














图 表 5-12 sys connct 在 不 同 的 协议 下 的 执行 路 径 


不 过 UDP 调用 了 connect 后 ， 对 UDP 的 性 能 有 一 些 提 高 ， 证 明 在 udp_sendmsg 函数 中 ; 











o -1O0| 01:5 CQ) ho 2S 


int udp sendmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg, 
size t len) 

{ 
int connected = 0; 


if (sk->sk_state != TCP_ESTABLISHED) 
return -EDESTADDRREO; 
daddr = inet-»daddr; 
dport = inet-—>dport; 
/* Open fast path for connected socket. 
Route will not be used, if at least one option is set. 
2 


connected = 1; 


if (connected) 










































































rt = (struct rtable*)sk_dst_check(sk, 0); 
如 果 曾 经 进行 过 connect，, 那 么 zf 肯定 不 是 NULL( 除 非 没有 路 由 ,但 如 果 没 有 路 由 你 还 发 送 什么 呢 ? ) 
if (rt == NULL) { 
以 下 行为 和 在 raw. sendmsg 函数 中 一 模 一 样 

SECUCE flows fT es aay 134 


err = ip route output flow(&rt, &fl, sk, !(msg-»msg flags&MSG DONTWAIT)); 





if (connected) 
Sk dst set(sk, dst clone(&rt-»u.dst)); 


err = udp push pending frames(sk, up); 





代码 段 5-14 udp sendmsg 函数 部 分 代码 











当 发 现 曾经 connect 过 ， 那 么 查 路 由 表 的 步骤 就 省 略 了 ， 那 么 发 送 性 能 就 提高 了 。 
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在 发 送 报 文 到 一 个 已 打开 socket 之 前 ， 一 个 使 用 SOCK_STREAM 类 型 的 socket 的 应 用 程 请 
需要 和 对 端 连 接 。 当 连接 建立 的 时 候 ， 要 做 的 一 件 事 是 创建 到 目的 地 址 的 连接 ， 而 且 ， 使 用 
SOCK_DGRAM 的 应 用 程序 在 发 送 数据 的 时 候 ， 会 使 用 connect 函数 建立 到 目的 地 的 路 由 。 下 面 



























































看 TCP 的 connect 的 内 部 实现 。 








o -1o0|01 5 C0 ho 2S 
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24. 
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28. 
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30. 
Sie 
S Ac 
33e 
34. 
E 
EIE 
SH e 
Scr 
39. 
40. 
ae 


42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 


7* 
* 
* 
is 


int 


out: 


Connect to a remote host. There is regrettably still a little 
TCP 'magic' in here. 


inet_stream_connect (struct socket *sock, struct sockaddr *uaddr, 
int addr_len, int flags) 


ShrEUICGrEE Sock Ss SOCK Sk 
slime, es 
long timeo; 


switch (sock->state) { 
default: 
err = -EINVAL; 
goto out; 
case SS CONNECTED: 
err = -EISCONN; 
Goro out. 
case SS CONNECTING: 
err = -EALREADY; 
/* Fall out of switch with err, set for this state */ 
break; 
case SS UNCONNECTED: 
当前 sock 只 能 是 这 个 状态 ， 和 否则 会 出 错 
err = -EISCONN; 
if (sk->sk_state != TCP_CLOSE) 
dgoto- Out; 
调用 下 面 要 介绍 的 tcp_v4_connect 函数 。 


err = sk->sk_prot-—>connect (sk, uaddr, addr len); 






























































注意 意 这 里 的 连接 是 ing 状态 
sock->state = SS CONNECTING; 






































只 是 进入 SS_CONNECTING 状态 ， 和 SS_CONNECTED 唯一 的 区 别 是 在 非 阻塞 的 情况 下 返回 值 是 
EINPROGRESS， 而 不 是 EALREADY 

err = -EINPROGRESS; 

break; 











} 
ae (UL « Sl El seu) © (Moo SN EN | TePESSYNERECY Dl 
if (!timeo || !inet wait for connect(sk, timeo)) 
goto out; 














/* 连接 被 RST， 超 时 ，ICMP 错误 或 者 另外 的 进程 关闭 ， 
uy 
if (sk-»sk state == TCP CLOSE) 
goto sock error; 
到 这 里 连接 就 是 ed 状态 了 
Sock-»state = SS CONNECTED; 
err = 0; 



































return err; 


sock_error: 


goto out; 





代码 段 5-15 inet stream connect 函数 

















UDP 的 connect 的 内 容 很 少 ， 只 是 查询 内 核 路 由 表 ， 而 对 于 TCP 应 用 来 说 ，connect 要 完成 的 
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和 王 务 非常 多 ， 调 用 ip_route_connect 查询 路 由 表 是 第 一 步 。 
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1. /* 此 函数 会 发 起 一 个 连接 .*/ 
2 teteraconneetl(Str uct sock ok stemueteesociacci dcdit cem) 
ES 
4. struct inet sock *inet = inet sk(sk); 
Bee Struct e pEESo M bom MEET NS S SIR) 
6 . struct sockaddr in *usin = (struct sockaddr in *)uaddr; 
ES struct rtable *rt; 
Bo u32 daddr, nexthop; 
a. HIME CINO 
AO’ alim eri, 
allel 
bee if (addr_len < sizeof(struct sockaddr_in) ) 
ibs} return -EINVAL; 
14. 
qb nexthop = daddr = usin-»sin addr.s addr; 
GS if (inet-»opt && inet-»opt-»srr) { 
gies if (!daddr) 
ANS c return -EINVAL; 
SE nexthop = inet->opt->faddr; 
20 } 
得 询 路 由 表 
zip tmp = ip route connect(&rt, nexthop, inet-»saddr, 
22 RT_CONN_FLAGS (sk), sk->sk_bound_dev_if, 
23 TREPROTOOTORZ 
24 inet->sport, usin-»sin port, sk); 
225) if (tmp « 0) 
26 return tmp; 
不 能 是 组 播 路 由 或 广播 路 
27 if (rt-»rt flags & (RTCF MULTICAST | RTCF BROADCAST)) { 
28 return -ENETUNREACH; 
29 } 
30 
Ss aie (I ainsi ort | | linet-»opt-»srr) 
dis dander e rp-»rt dst: 
d dC a WH, aot Fe p e 19 ELI JH HE 
Ou if (!inet->saddr) 
34 inet->saddr = rt-»rt src; 
35 inet-»rcv saddr = inet-»saddr; 
31$ 
Sa if (tp->rx_opt.ts_recent_stamp && inet-»daddr != daddr) { 
38 /* Reset inherited state */ 
38). tp->rx_opt.ts_recent = Os 
40. tp-»rx opt.ts recent stamp = 0; 
41. tp-»write seq = 0; 
42. } 
43. 
44. if (tcp death row.sysctl tw recycle && 
45. !tp-»rx opt.ts recent stamp && rt-»rt dst == daddr) { 
46. struct inet peer *peer - rt get peer(rt); 
47. 
48. /* VJ's idea. We save last timestamp seen from 
dor * the destination in peer table, when entering state TIME-WAIT 
EO * and initialize rx opt.ts recent from it, when trying new connection. 
Bib wf 
DA. 
DSi if (peer && peer->tcp_ts_stamp + TCP_PAWS_MSL >= xtime.tv sec) { 
54 Coote Go o Te eS Soa = peers op ts stamp; 
55 tp->rx_opt.ts_recent = peer->tcp_ts; 
56 } 
D ) 
这 里 指定 目的 端口 和 地 址 
58 inet-»dport = usin->sin_port; 
IIS inet-»daddr = daddr; 
60 
Gils inet csk(sk)-»icsk ext hdr len = 0; 
OZ < if (inet-»opt) 
625 inet csk(sk)-»icsk ext hdr len = inet-—>opt-—>optlen; 
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64. 
65; tp->rx_opt.mss_clamp = 536; 
66. 
67. /* 到 此 socket 的 二 元 组 还 没有 唯一 确定 ， 因 为 sport 可 能 是 0， 但 是 我 们 会 设置 socket 的 状态 

为 SYN-SENT， 并 且 不 会 
68. * However we set state to SYN-SENT and not releasing socket 
59 * lock select source port, enter ourselves into the hash tables and 
30). * complete initialization after this. 
ale n 
des tcp set state(sk, TCP SYN SENT); 

tcp death row 是 一 个 全 局 变量 ， 它 有 一 个 指向 tcp_hashinfo 的 指针 ， 这 个 函数 会 用 到 它 
i ie err = inet hash connect (&tcp death row, sk); 
74. 
ds err = ip route newports(&rt, IPPROTO TCP, inet-»sport, inet->dport, sk); 
16. 
3 1 s /* OK, now commit destination to socket. */ 
TS sk->sk_gso_type = SKB_GSO_TCPV4; 
qu Sk setup caps(sk, &rt-»u.dst); 
生成 一 个 序列 号 ， 用 作 将 来 的 3 次 握手 协议 

80 . if (!tp->write_seq) 
ales tp->write_seq = secure_tcp_sequence_number (inet—>saddr, 
Size inet-»daddr, 
93. inet-»sport, 
84. usin-»sin port); 
85. 
86. inet-»id = tp-»write seq ^ jiffies; 
S 
88. err = tcp connect (sk); int tcp connect(struct sock *sk) 
89. rt = NULL; 
9) . 
91. return 0; tcp. transmit. skb(sk, buff, 1, GFP KERNEL); 
92. failure: 发 起 一 个 定时 器 ， 重 复发 送 SYN， 直 到 收 到 一 个 应 答 
3) inet csk reset xmit timer(sk, ICSK TIME RETRANS, 

把 这 个 sock 从 hash XP Jl ls, inet csk(sk)-^»icsk rto, TCP RTO MAX); 

释放 本 地 端口 
94. tcp_set_state(sk, TCP_CLOSE) ; 
Ob Ee 
96. return err; 
oU. 
代码 段 5-16 tcp v4. connect 函数 
E 

sysctl_local_port_range 是 从 32768 ~61000. 

IP Jj TCP 和 UDP HÈM ip route connect 去 建立 一 条 路 由 。 实 际 上 ， 此 函数 只 是 主要 路 由 解析 
A 





数 ip route output flow 和 ip route output key 的 封装 函数 ， 实 际 上 就 是 “可 能 ”调用 2 次 
然 


























ip route output. key 函数 ， 第 一 次 调用 会 找到 下 一 跳 的 i 地 址 ， 也 许 在 路 由 缓存 或 fib 中 找到 ， 然 











上 后 








第 二 次 找到 下 一 跳 的 具体 邻居 ， 到 neigh_table 中 找到 : 
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il static inline int ip_route_connect (struct rtable **rp, u32 dst, 
2 (3/2 See, WIZ LOS, Time (Gir. WS I9 OOo; 

3 ul6 sport, ul6 dport, struct sock *sk) 

an so 

Sio Siciabiete, tiowa sell = af subs € Gub, 

6 sli = f 3994. wp = 4 acleielche = clic, 

J .saddr = src, 

8 "OSEE sto Suh EE 

oF Loto = EOEZOCOL 

TU. gibst gm = WP pOr ES 

iLike i SIDE SI OI 

12. .dport = dport ) ) }; 过 程 中 都 曾 见 过 ， 不 要 忘记 了 。 
13s 

14. int err; 

i5. is (dist || Jere) 4 























如 果 源 地 址 或 目的 地 址 都 是 0， 那么 我 们 必须 先 
邻居 地 址 。 当 ast 为 0， 那么 目的 和 源 都 是 环 回 地 址 ， 请 参考 ip route output slow 









































iG err = __ip_route_output_key(rp/ &f1); 
dave 

T8. il ila «lee S (C389) tes 

19. :eene "eue. e (199) b YAP 


200R Lote 

Zales *rp = NULL; 

222. ) 

23 return ip_route_output_flow(rp, &fl, sk, 0); 
24. } 








出 相应 的 目的 和 源 ， 把 Elowi 填 好 以 后 再 去 找 





u 




















当 我 们 还 没有 发 送 建 立 connect 的 请 求 ， 我 们 就 先 把 sock{f} 的 状态 置 为 TCP. SYN. SENT, 










































































tcp_hashinfo 是 放 在 tcp_death_row 这 个 全 局 结构 中 的 。 


然 


TON 


后 把 此 sock{} 放 入 上 一 节 中 介绍 的 tcp_hashinfo 中 的 ehash 表 中 。 不 过 这 一 切 没 有 这 么 直观 ， 因 为 



































iQ He 
2. * 把 一 个 端口 绑 定 到 一 个 sock E, REA hash 表 中 
3. n 
4. int inet hash connect(struct inet timewait death row *death row, 
Des struct sock *sk) 
Gs 
这 里 的 hashinfo Witt tcp. hashinfo. 
Whe struct inet hashinfo *hinfo = death row-»hashinfo; 
B const unsigned short snum = inet sk(sk)-»^num; 
op struct inet_bind_hashbucket *head; 
IOs struct inet_bind_bucket *tb; 
Eiba int ret; 
IAA 
13:5 (Sn 4 
14. int low = sysctl local port range[0]; 
RDF dime, Josie. = tZ. lel xot. sees || 1L 1p 
16. int range = high - low; 
ETS akane abe 
dq aum. Meroe 
Lor statro u32 hints 
Zon u32 offset = hint + inet_sk_port_offset (sk); 
2407 struct hlist node *node; 
DAUR, struct inet_timewait_sock *tw = NULL; 
23 
24. foe (2 = dp a <>] ieeieep ipae) i 
294 port = low + (i + offset) % range; 
267 head = &hinfo->bhash[inet_bhashfn(port, hinfo->bhash_size)]; 
27 
28 . inet bind bucket for each(tb, node, &head->chain) { 
23 if (tb->port == port) { 
Oy BUG_TRAP (!hlist_empty (&tb->owners) ); 
Cs if (tb->fastreuse >= 0) 
Quos goto next port; 
d if (! inet check established(death row, 
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34. Sik, jeu 
Soe &tw) ) 
36 ¢ goto ok; 
Bile goto next port; 
38. ) 
ION ) 
40. 
41. tb = inet bind bucket create(hinfo-»bind bucket cachep, head, port); 
42. ais (S d 
43. break; 
44. } 
45. tb->fastreuse = -1; 
46. goto ok; 
aue 
48. next port: 
40 SCE dite Lg apio 
S0) « ) 
SiL s 
52 return -EADDRNOTAVAIL; 
DOM 
Ao elisa 
55 hint += i; 

把 自己 加 入 到 hash 表 中 
5G. inet bind hash(sk, tb, port); 
hu en if (sk unhashed(sk)) { 
Soy inet_sk(sk)->sport = htons (port); 
DOR ne MaS euro Sla Oe 
60. } 
Gal 
625 mie (Cem) di 
63. inet twsk deschedule(tw, death row); 
64. inet twsk put (tw); 
65. ) 
66. 
6X. ret = 0; 
68. goto out; $lJ5Ab, Alt socket 分 配 port 的 任务 基本 完成 ， 可 以 退出 了 
69). } 

下 面 是 当 snum 不 为 0 的 情况 ， 这 必须 要 检查 snum 的 合法 性 
HOR head = &hinfo-»bhash[inet bhashfn(snum, hinfo-»bhash size)]; 
Seis tb = inet csk(sk)-»icsk bind hash; 
Tes if (sk head(&tb-»owners) == sk && !sk->sk_bind_node.next) { 


























注意 这 里 的 第 三 个 参数 是 0， 这 表明 我 们 将 会 把 这 个 sock WA established 表 中 ， 而 不 是 
listening hash 表 中 。 我 们 曾经 在 tcp_v4_hash 函数 中 调用 过 这 个 函数 ， 当 时 传 入 的 是 1。 









































dis . inet hash(hinfo, sk, 0); 

74. return 0; 

TE } else ( 

76. /* 没有 明确 的 回答 ， 要 遍历 整个 established hash Xé */ 

S ret P inet check established(death row, sk, snum, NULL); 
JS). Owes 

UD. return ret; 

80. } 

SH 





代码 段 5-17 inet hash connect 函数 











下 面 的 ip route newports 用 处 是 根据 我 们 本 地 端口 和 端口 是 否 与 路 由 查询 表 中 的 相同 来 决定 
新 建 一 个 路 值 ， 并 且 调 整 路 由 表 。 它 也 是 ip_route_output_flow 的 封装 函数 。 
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FPOMATA UN BWNE 


static inline int ip route newports(struct rtable **rp, ul6 sport, ul6 dport, 
simu cte Soc SI) 
{ 
if (sport != (*rp)->fl.fl_ip_sport || dport != (*rp)->fl.fl_ip_dport) { 
eno dr] ill? 
memcpy(&fl, &(*rp)->fl, sizeof(fl)); 
PIMPS porti = coon 
irl j3E]L eo = Comes 


el c DW) 
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Tops return ip route output flow(rp, &fl, sk, 0); 
IDs } 

or return 0; 

14. } 





代码 段 5-18 ip route newports 函数 


5.277 TCP 报 文 的 接收 
在 真正 进入 三 次 握手 之 前 ， 我 们 必须 先 说 TCP 报 文 的 接收 。 
还 记得 有 一 个 inet protocol 结构 的 变量 tcp protocol 吗 ? 它 的 handler 就 是 TCP AW 









































tcp. v4 rcv. 


要 用 到 inet_protos 





不 过 
中 ， 而 处 于 TCP_LISTEN 状态 的 sock{} 放 入 了 tcp_hashinfo 防 lhash KF- 





tcp v4 do rcv 














inet lookup listener 


























. inet lookup established 























. inet lookup(tcp hashinfo) 

















tcp. v4 rcv 














ipprot->handler 





























ip_local_deliver_finish 





图 表 5-13ip local deliver finish 函数 调用 tcp 的 树 








如 同上 一 节 介 绍 的 UDP 报 文 接受 方法 ，TCP 通过 搜索 tcp_hashinfo 查找 已 经 建立 的 sock{}, 
出 于 性 能 的 考虑 ,凡是 出 于 TCP_ESTABLISHED 状态 的 sock{} 放 入 了 tcp_hashinfo->ehash 表 





























tcp. v4 do rcv 的 代码 分 析 : 














1. /* The socket must have it's spinlock held when we get 

De * here. 

Se 

4. * We have a potential double-lock case here, so even when 
5n * doing backlog processing we use the BH locking scheme. 
6 . * This is because we cannot sleep with the original spinlock 
Te * held. 

9. "p 

9).  ajgue ej swál clo _ iwewv(StmuUce SOCK "sik, SiC S KEPUT RERS KD) 
i. 

ial if (sk->sk_state == TCP_ESTABLISHED) 

12. ( /* Dusskte * 
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LER if (tcp rcv established(sk, skb, skb->h.th, skb-»len)) 
14. goto reset; 
i5; 
18s return 0; 
ie } 
I c 
I9 TE (ekos lam c (Skoa thH-esdort eec 29 I tcp checksum complete (skb)) 
20 goto csum err; 
21 
225 if (sk->sk_state == TCP_LISTEN) { 
zi struct sock *nsk = tcp v4 hnd req(sk, skb); 
24 
25 if (nsk != sk) { 
26 if (tcp child process(sk, nsk, skb) ) 
Dal goto reset; 
28 return 0; 
29. } 
SOF } 
Sue 
92 
ds if (tcp rcv state process(sk, skb, skb-»h.th, skb-»len)) 
Sae goto reset; 
9o 
36 return 0; 
Sak 
38. reset: 
BOF tcp_v4_send_reset (skb); 
40. discard: 
41. kfree_skb(skb); 
42. 
43. return 0; 
44. csum_err: 
45. goto discard; 
ANG sj) 
代码 段 5-19tcp v4 do rcv 函数 
tcp. rcv. established 的 分 析 : 
i. e 
2. * TCP AbH} ESTABLISHED 状态 报 文 的 接收 函数 
SE "i 
4. * 此 函数 被 分 为 “快速 路 径 ” 和 “ 慢 速 路 径 ” 两 部 分 。 快 速 路 径 在 如 下 情况 被 disabled: 
* — A zero window was announced from us - zero window probing 
6. X is only handled properly in the slow path. 
I * — Out of order segments arrived. 
8 . * — Urgent data is expected. 
on * — There is no buffer space left 
10. * - Unexpected TCP flags/window values/header lengths are received 
Jed So cte (detected by checking the TCP header against pred flags) 
12. * - Data is sent in both directions. Fast path only supports pure senders 
eS e ume or pure receivers (this means either the sequence number or the ack 
eA Uh value must stay constant) 
15. * - Unexpected TCP option. 
NEG Fea 
17. * When these conditions are not satisfied it drops into a standard 
18. * receive procedure patterned after RFC793 to handle all cases. 
19. * The first three cases are guaranteed by proper pred flags setting, 
20 * the rest is checked inline. Fast processing is turned on in 
21. * tcp data queue when everything is OK. 
QE. Gv 
23. int tcp rcv established(struct sock *sk, struct sk buff *skb, 
24 struct tcphdr *th, unsigned len) 
295 t 
26 struct tcp opt *tp - tcp sk(sk); 
27 
28 ris 
DO * Header prediction. 
3X0) - * The code loosely follows the one in the famous 
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Sil * "30 instruction TCP receive" Van Jacobson mail. 

S25 ^ 

33) < * Van's trick is to deposit buffers into socket queue 

Sue * on a device interrupt, to call tcp recv function 

S5 * on the receive process context and checksum and copy 

3I < * the buffer to user space. smart... 

Sie n 

Sie * Our current scheme is not silly either but we take the 

39) * extra cost of the net bh soft interrupt processing... 

40. * We do checksum and copy also but from device to kernel. 

41. 5 

42. 

d tp-»saw tstamp = 0; 

44. 

45. /* pred flags is 0xS?10 << 16 + snd wnd 

46. * if header predition is to be made 

47. * 'S' will always be tp->tcp_header_len >> 2 

48. * '?' will be 0 for the fast path, otherwise pred flags is 0 to 
49. * turn it off (when there are holes in the receive 

SU 5s Space for instance) 

il * PSH flag is ignored. 

525 5 

5S 

54. if ((tcp flag word(th) & TCP HP BITS) == tp->pred_flags && 

5:55 TCP SKB CB(skb)-»seq == tp-»rcv nxt) { 

53) int tcp header len = tp->tcp_header_len; 

Bile 

58. /* Timestamp header prediction: tcp_header_len 

89. * is automatically equal to th->doff*4 due to pred flags 
60. dm arteriae 

GU e 

62. 

63. /* Check timestamp */ 

64. if (tcp header len --sizeof(struct tcphdr) + TCPOLEN TSTAMP ALIGNED) { 
65. ISA wikia c (Misys) (lela x 45 

66. 

67. /* No? Slow path! */ 

68. if (*ptr != ntohl((TCPOPT_NOP << 24) | (TCPOPT_NOP << 16) 
69. | (TCPOPT TIMESTAMP << 8) | TCPOLEN_TIMESTAMP) ) 
WO. goto slow_path; 

eels 

V2. « tp->saw_tstamp = 1; 

quim ++ptr; 

74. ijo ies well = inte@leil ((joiwie)) p 

di ++ptr; 

MOF tp-»rcv tsecr = ntohl(*ptr); 

31i « 

Vee /* If PAWS failed, check it more carefully in slow path */ 
79. aux (9:922) (eJ ev = ij Ses esee) -« (0) 

$0) . goto slow path; 

Le 

82. /* DO NOT update ts recent here, if checksum fails 

ON * and timestamp was corrupted part, it will result 

84. * in a hung connection since we will drop all 

SI. * future packets due to the PAWS test. 

86. Ww 

gy ) 

88 . if (len <= tcp_header_len) { 

95 /* Bulk data transfer: sender */ 

9204 if (len == tcp header len) { 

Oil. /* Predicted packet is in window by definition. 

O28 * seq == rcv nxt and rcv wup <= rcv nxt. 

93) « * Hence, check seg«-rcv wup reduces to: 

94. wj 

9 5z if (tcp_header_len == 

96. (sizeof (struct tcphdr) + TCPOLEN TSTAMP ALIGNED) && 
Or tp-»rcv nxt == tp-»rcv wup) 

ONE tcp store ts recent (tp); 

99). /* We know that such packets are checksummed on entry. */ 
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pas 
w 
eS) We) 


PRPRPRPPRPRPRPHR RB 
BS ee Be id: ua 





nd 
a 
e 


oo -10| 01: CQ) ho 2 


Ne) 


tcp_ack(sk, skb, 0); 
__kfree_skb(skb); 
tcp_data_snd_check (sk) ; 
Peburn Oy 


} else { /* Header too small */ 


} 








WO TENG ISSIUNIS}_ Biel (Ie) Iliad ieve%s})) 6 
goto discard; 


} else { 
int eaten = 0; 


if 


} 
E 


} 


(tp->ucopy.task == current && 
tp->copied_seq == tp->rcv_nxt && 

len - tcp header len <= tp->ucopy.len && 
sock_owned_by_user (sk)) { 

. Set current state(TASK RUNNING); 


if (!tcp copy to iovec(sk, skb, tcp header len)) 
/* Predicted packet is in window by definition. 


* seq == rcv nxt and rcv wup <= rcv nxt. 
* Hence, check seq<=rcv_wup reduces to: 
ui 


if (tcp header len -- 
(sizeof(struct tcphdr) -* 
TCPOLEN TSTAMP ALIGNED) && 
tp-»rcv nxt == tp-»rcv wup) 
tcp store ts recent (tp); 





__skb_pull(skb, tcp header len); 
tp->rcv_nxt = TCP SKB CB(skb)--»end seq; 
eaten = 1; 


} 


(!eaten) { 
if (tcp_checksum_complete_user(sk, skb) ) 
JGOUD CSU -Grrors 


/* Predicted packet is in window by definition. 
* seq == rcv nxt and rcv wup <= rcv nxt. 

* Hence, check seg«-rcv wup reduces to: 

d 

if (tcp header len == 








(sizeof(struct tcphdr) + TCPOLEN TSTAMP ALIGNED) 


tp-»rcv nxt == tp-»rcv wup) 
tcp store ts recent (tp); 





if ((int) skb->truesize > sk-»sk forward alloc) 
goto step5; 


NET INC STATS BH(TCPHPHits); 


"X puedatamtianssepm receiver 

. .Skb pull(skb,tcp header len); 

. .Skb queue tail(&sk-»sk receive queue, skb); 
tcp set owner r(skb, sk); 

tp-»rcv nxt = TCP SKB CB(skb)--»end seg; 





tcp event data recv(sk, tp, skb); 


if 


} 


IiE 


(TCP_SKB_CB (skb)->ack_seq != tp->snd_una) { 
fe WELL only ome: Sas le MESSEN tc PERS 
tcp ack(sk, skb, FLAG DATA); 
tcp data snd check(sk); 
if (!tcp ack scheduled (tp) ) 
goto no ack; 


(eaten) { 


{ 


5 


&& 
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pes. if (tcp in quickack mode(tp)) { 
TOROS tcp send ack(sk); 

T AU } else { 

Ne ae tcp send delayed ack(sk); 

i073. ) 

174. ) else ( 

n Sa Dr tcp ack snd check(sk, 0); 

Les } 

We 

WS} no_ack: 

LES. if (eaten) 

ieee tbe . kfree skb(skb); 

LL else 

182. sk->sk_data_ready (sk, 0); 

ese return 0; 

184. } 

185. } 

186. 

1L TI Slow path: 

188. Af (ten s (th-»doffs«s2) | | tcp_checksum_complete_user(sk, skb) ) 
189). goto csum_error; 

190 - 

TOL- is 

1.002] — * RFC1323: HI. Apply PAWS check first. 

1953. y 

LOA, if (tcp_fast_parse_options (skb, th, tp) && tp->saw_tstamp && 
LOS tcp_paws_discard(tp, skb)) { 

196. if (!th->rst) { 

LOT NET_INC_STATS_BH (PAWSEstabRejected); 
198. tcp_send_dupack (sk, skb); 

LOS goto discard; 

ZOO - } 

BOL /* Resets are accepted even if PAWS failed. 
2102. - 

2037 ts_recent update must be made after we are sure 
204. that the packet is in window. 

205. A 

206. } 

20 7 - 

208. es 

209. * Standard slow path. 

ZO - DA 

Bile 

Bo, if (!tcp_sequence (tp, TCP_SKB_CB(skb)->seq, TCP SKB CB(skb)-»end seq))í 
2p CMM UE E 

214. if (!th-»rst) 

PR tcp send dupack(sk, skb); 

26. goto discard; 

BIT « } 

218. 

BUS) if(th-»rst) { 

2210F tcp_reset (sk); 

22H goto discard; 

229 ) 

BES 

224. tcp replace ts recent(tp, TCP SKB CB(skb)-»seq); 
DIDI. 

2210F if (th->syn && !before (TCP_SKB_CB(skb)->seq, tp-»rcv nxt)) { 
22% WE! _ INC SWANS) evel (eyo RATES) NT 

223 NET INC STATS BH(TCPAbortOnSyn); 

AEs tcp_reset (sk); 

2905 return 1; 

DESSIN ) 

DIE 

ASS « step5: 

234. if (th->ack) 

299 tcp_ack(sk, skb, FLAG SLOWPATH); 

DISCE 

237. /* Process urgent data. */ 
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238. EGS ue (msc moy le) p 
PISO 

240. /* step 7: process the segment text */ 
241 tcp data queue(sk, skb); 
242 

243 tcp data snd check(sk); 
244 tcp ack snd check(sk); 
245. return 0; 

246 

247 csum_error: 

2485. = be UU S 

2A 9r discard: 

2250) v __kfree_skb(skb) ; 

PIOS return 0; 

252 ) 





代码 段 5-20tcp rcv established 函数 


52.8 3 次 握手 的 实现 
不 管 是 客户 端 还 是 服务 器 端 ， 当 连接 不 是 TCP ESTABLISHED 状态 的 时 候 ， 就 会 调用 
tcp rcv state process 函数 ， 这 就 是 专门 处 理 3 次 握手 协议 的 状态 机 处 理 函 数 。 对 于 服务 器 端 TCP 
协议 栈 ， 当 收 到 一 个 connect 请 求 时 ， 会 去 调用 此 函数 中 出 现 的 tp->af_specific->conn_request(sk, 
skb)， 也 就 是 tcp_v4_conn_request， 如 果 不 记 得 如 何 指向 此 函数 ， 请 参考 TCP 的 socket 初始 化 : 






























































tcp_v4_conn_request 

















tcp_openreq_init 























tcp_v4_send_synack 











tcp_v4_route_req 











tcp_make_synack 














tcp_v4_check 

















ip_build_and_send_pkt 























dst_output 




















skb->dst->output 











表 5-14tcp v4 conn request 函数 调用 树 




















TEM, skb-»dst-»output 要 根据 具体 的 情况 分 析 ， 不 过 ， 一 般 都 是 ip_output。 我 们 在 上 面 的 发 
送 流程 分 析 中 已 经 介绍 

















Li x26 YORI 


等 待 信 号 


leo 
函数 返回 





当 一 
并 带 上 自己 的 ISN( 初 始 序号 
当 一 


TCP_ES 


请 求 数据 报 的 目的 地 址 和 源 


接收 源 


inet_stream_connect 








= 


Vu PS CLOSE 








* 
TCP SYN SENT| 


top connect 


SYNj 





>> 30——0-— 





| |tcp rcv. synsel 


4- 
t_state_process 




















-= 





Hsk_state_change 








EN 
TCP ESTABLISHED 








——— ACK k+1 





x 
TCP_ESTABLISHED 


i tcp_v4_conn_request 


Y 
.. TCP SYN RECV 











TCP_LISTEN 


osm gsx 一 0 一 








mam" SOIN 
Sk state change 
pvc e e id 


数 返 回 
tcp_data_queue 





图 表 5-15 3 次 握手 在 内 核 中 的 实现 序列 图 


台 主 机 发 起 tcp 
s 
个 TCP 报 文 送 到 协议 栈 的 




















中 查寻 
地 址 等 信息 1 
BHE, 数据 报 的 源 地 址 等 于 


TABLISH 状态 的 socket 




















| 算出 来 的 哈 希 


i 


本 地 socket 的 目的 地 址 , 数据 的 源 端 口 和 


时 候 ， 首 先 在 ehash 表 的 前 半 部 分 中 查寻 ， 
匹配 。 匹 配 逻 辑 是 : socket 结构 体 成 员 sk. hash 


连接 请 求 时 ， 它 所 发 出 的 第 一 个 tcp 数据 报 是 一 个 SYN, 


即 在 处 于 
要 等 于 根据 














值 ， 数 据 报 的 目的 地 址 等 于 本 地 socket 的 


目的 端口 与 本 地 socket 



































Nx 


























的 





的 端口 


与 源 端 口 匹配 ， 











， 如 果 本 地 socket 绑 定 了 输入 网 络 设备 接 








， 那 数据 报 的 输入 接 





口 要 





跟 本 地 socket 的 输入 接 
因为 这 是 一 个 连接 请 











相同 。 
求 ， 所 以 在 























ehash 表 中 


是 不 可 能 找到 


| 





匹配 的 socket 的 。 接 下 来 到 


listening hash 中 寻找 侦 听 socket. 
输入 接口 也 匹配 ， 则 寻找 成 功 。 
inet_connection_sock->icsk_accept_queue)! 


了 《但 还 








受 ， 并 保存 在 接受 队列 ! 
表 中 )。 寻 找 request. sock HE 
址 跟 loc_addr 匹配 。 显 然 ， 对 
它 不 可 能 已 经 在 接受 队列 中 存 

没有 找到 但 
并 且 收 到 了 来 上 


tcp v4 conn request PÁ 















































网 络 对 端的 第 











数 对 于 接受 tcp 连接 请 求 的 处 理 ， 








口 rH 

















只 要 目的 地 址 和 端 
找到 一 个 侦 听 s 
寻找 
不 没有 被 accept 处理， 因为 如 果 
辑 是 请 求 数据 的 源 地 址 和 端 
于 刚刚 发 起 


在 。 










































































F 何 socket, 我 们 继续 处 理 这 个 侦 听 socket AA, 它 当月 
_conn_request 接受 这 个 连接 请 求 ， 
它 在 创建 了 














一 个 SYN 数据 报 , 于 是 调用 





H tcp_v4 











需要 生成 一 个 ISN( 初 始 序号 )。 





44 J ISN 后 ， 对 请 求 socket 发 出 











匹配 ， 如 果 侦 听 socket 绑 定 了 输入 接 
ocket 后 ， 首 先 在 这 个 socket 的 accept 队列 (struct 
匹配 的 request_sock, [A 


ij OER rmt, addr 和 rmt. port 
第 一 个 SYN 的 socket 请 求 来 ; 

















, 











为 有 可 外 


accept 处 理 过 


该 请 求 已 经 被 接 
， 会 出 现在 ehash 
匹配 ， 目 的 地 
， 这 种 寻找 总 是 失败 的 ， 


























前 处 于 TCP_LISTEN 状态 ， 





一 个 struct request_sock 之 后 ， 








的 SYN 发 回 一 个 ACK 跟 本 地 的 








KHP, (struct 


SYN。 然 后 把 创建 的 struct request sock 加 入 到 侦 听 socket 的 请 求 socket 哈 希 表 


"m 
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inet_connection_sock->isck_accept_queue-》>1listen_opt>syn_table)>， 但 是 需要 注意 的 是 ， 此 时 该 





























request_sock 还 没有 进入 接受 队列 ( 即 通 过 struct inet_connection_sock > isck_accept_queue 
>rskq_accept_head 还 不 能 找到 它 )。 

接 下 来 ， 当 客户 端的 socket 收 到 来 自 本 地 socket 的 ACK+SYN 后 , 会 发 回来 一 个 ACK。 继 续 
走 tep 数据 报 的 接收 流程 。 此 时 我 们 还 是 只 能 在 tcp_hashinfo 哈 希 表 集 中 的 listening. hash 表 中 找 
到 侦 听 socket 对 它 进 行 处 理 。 但 此 时 ， 我 们 可 以 在 侦 听 socket 的 syn table 表 中 找到 这 个 
request_sock。 找 出 这 个 request sock 后 ， 要 对 它 进行 检查 ， 检 查 通 过 ， 从 侦 听 socket 上 新 克隆 一 
个 strcut tcp_sock， 置 其 状态 为 TCP_SYN_RECV， 放 入 mytcp_hashinfok 中 的 ehash 哈 希 表 ， 然 后 
把 该 新 创建 的 tep sock 也 绑 定 在 跟 侦 听 端口 相同 的 本 地 端口 上 。 最 后 ， 把 socket 的 状态 改 为 


TCP_ESTABLISH， 接 受 一 个 tcp 连接 请 求 的 过 程 结 束 。accept 系统 调用 把 socket 从 接受 队列 中 取 
走 ， 取 回 request_sock->sk， 并 释放 掉 request_sock， 然 后 就 可 以 进行 tcp 通讯 了 。 


tcp_transmit_skb 
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tp-^af specific-»send check 





























tcp v4 send check Y—— | 在 ip_output.c 中 


























tp->af_specific->queue_xmit 


























ip_queue_xmit 在 route.c 中 




















ip_route_output_flow 


























. ip. route output key 























NF. HOOK 














ip route output slow 














dst output 














skb->dst->output 























ip_output 











图 表 5-16tcp transmit skb 调用 树 


5.2.9 内核 收 到 报 文 转 到 用 户 态 
先 说 说 TCP 收 包 的 context (不 定 长 包 )。 一 般 情况 ， 发 送 方 发 送 一 个 包 ， 然 后 接收 方 收 到 一 
个 包 ， 这 是 最 好 处 理 的 。 第 二 种 情况 ， 当 每 次 发 生 的 包 比 较 小 时 ， 发 送 数据 时 ，TCP 会 启用 优化 



































算法 ， 将 多 个 小 包 集中 起 来 发 送 ， 以 提高 传输 效率 。 此 时 接收 方 的 recv buffer 4 
每 次 只 一 个 包 ， 但 接收 方 没 及 时 取 包 ， 这 


i 





一 个 包 


di 





oF 
BENA. 


























每 个 消息 的 开始 和 结束 标识 符 。 然 后 每 次 recv 得 到 的 数据 先 放 到 一 个 大 (比如 你 


三 种 情况 ，recv buffer 4 


所 当然 ，TCP 收 包 要 考虑 所 有 这 些 情况 。 
先 收 包头 ， 然 后 根据 包头 中 的 消息 真实 大 小 ， 接 收 消息 剩余 部 分 。 第 
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2 倍 ) buffer 中 ， 最 


定 长 度 , 然后 对 接收 到 
用 户 进程 收 到 数据 以 后 ， 并 不 从 组 六 














rH 






































pe 



































情况 下 ， 把 当前 的 seq 传 给 peek seq, HEU seq 指向 peek. seq 


BOR DLA =F 


再 来 分 析 这 个 buffer 分 包 。 第 三 种 方法 ， 先 
的 " 包 " 进 行 分 析 , 然后 做 真正 的 recv 操作 。MSG_PEEK 标志 位 的 作用 在 于 ， 
区 中 删除 ， 再 次 执行 recv 的 








P, HJ 


时 recv buffer 中 会 积 





能 出 现 不 止 

















方法 。 第 一 种 ， 定 义 好 通讯 协议 ， 























二 种 方法 ， 通 讯 协议 规定 好 








Z 


时 候 ， 依 然 能 够 收 3 


的 最 大 packet 的 
H recv+MSG_PEEK 接收 某 个 固 








| 数据， 这 种 
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S. * Technical note: 
4. 

S ^" lal 

6. wh 

les 

Se 


int tcp recvmsg(struct kiocb *iocb, 

















* ”这 个 函数 把 sock 中 的 数据 拷贝 到 用 户 缓冲 区 * 
in 2.3 we work on _locked_ socket, 
* tricks with *seq access order and skb->users are not required. 





code can be easily improved even more. 


Seine BGOCl< “Sk, 


om size_t len, int nonblock, int flags, int *addr_len) 
i. 14 
TIS Sue cti Eep Opt ACP MEG MESI (sia) i, 
2S int copied = 0; 
T3, u32 peek_seq; 
14, u32 *seq; 
Is unsigned long used; 
oS IDE Er; 
qe int target; /* Read at least this many bytes */ 
leke long timeo; 
IS). struct task_struct *user_recv = NULL; 
err = -ENOTCONN; 
if (sk->sk_state == TCP_LISTEN) 





gotoreuts 


timeo = sock rcvtimeo(sk, nonblock); 





























WWNHNNNNNNNN S2 
FOUWUMAAT AU 0€ PP GO 





/* 带 外 数据 需要 特别 处 理 */ 
if (flags & MSG_OOB) 
Goro Yecuv urg: 








seq = &tp-»copied seg; 














So that 


struct msghdr *msg, 
































SO c if (flags & MSG PEEK) { 

S9 c peek seq = tp-»copied seg; 

34 seq = &peek seg; 

S ) 

36 

3 target = sock rcvlowat(sk, flags & MSG WAITALL, len); 

38 

39. do { 

40. SEruUct Iss loxbürit SKE; 

41. u32 offset; 

42. 
判断 是 否 是 紧急 数据 ?如 果 我 们 已 经 读 取 了 一 些 数据 或 者 还 有 SIGURG 信和 号 没 
须 停 下 来 

a if (tp-»urg data && tp-»urg seq == *seq) { 

44. if (copied) 

45. break; 

46. if (signal_pending(current)) { 

Ais copied = timeo ? sock intr errno(timeo) —-EAGAIN; 

48. break; 

49. ) 





时 的 话 则 必 
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SOR } 
从 接收 队列 中 获取 一 个 skb 
ST skb = skb peek(&sk-»sk receive queue); 
52% do { 
DIC if (!skb) 
54. break; 
D5 
55 - /* Now that we have two receive queues this 
Biles * shouldn't happen. 
58. A 
597 if (before (*seq, TCP_SKB_CB (skb)->seq)) { 
60. 
Ga break; 
62. } 
63. offset = *seq - TCP SKB CB(skb)-»seqg; 
64. if (skb->h.th->syn) 
695 offset--; 
66 . if (offset < skb-»len) 
615; goto found ok skb; 
68. if (skb->h.th->fin) 
69. goto found fin ok; 
TOR BUG TRAP(flags & MSG PEEK); 
Wake skb = skb->next; 
Inv ) while (skb != (struct sk buff *)&sk-»sk receive queue); 
73« 
We /* 如 果 我 们 有 backlog 设备 ， 就 尝试 用 它 来 处 理 
UD 
76. if (copied >= target && !sk-»sk backlog.tail) 
Ws break; 
VES. 
TEE. if (copied) { 
80. if (sk-»sk err || 
81. Sk-»sk state == TCP CLOSE || 
82. (sk-»sk shutdown & RCV SHUTDOWN) || 
83. !timeo || 
84. Signal pending (current) I | 
Sor (flags & MSG PEEK)) 
86. break; 
euis ) else ( 
88. if (sock_flag(sk, SOCK_DONE) ) 
SO break; 
SE Eso oen 
Sul 
ae if (sk->sk_shutdown & RCV_SHUTDOWN) 
935 break; 
94. 
95. if (sk-»sk state == TCP CLOSE) { 
96. if (!sock flag(sk, SOCK DONE)) { 
ONT! c /* This occurs when user tries to read 
98. * from never connected socket. 
99. D 
100. copied - -ENOTCONN; 
3E (0) 1L c break; 
kOe } 
LOS. break; 
104. } 
105A 
106. if (!timeo) { 
LO c copied = -EAGAIN; 
108. break; 
TOS } 
ISOR 
LR pe if (signal pending(current)) { 
do copied = sock intr errno(timeo); 
dol. break; 
TIAS } 
LAS. } 
WS 
duc cleanup rbuf(sk, copied); 
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an 
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PRPRPRPPRPRPRPHE RB 
[s-J dS oS. dd: GS a uS 





nd 
oa 
e 


co -1o0| 01 5 CQ) ho 2 


Neo} 


小江 


ILIE 





(tp->ucopy.task == user_recv) { 

/* Install new reader */ 

if (!user_recv && !(flags & (MSG_TRUNC | MSG_PEEK))) { 
user_recv = current; 
tp-»ucopy.task = user recv; 


} 


tp->ucopy.iov = msg-»msg iov; 


tp-»ucopy.len = len; 


/ 


+ + OR OR + FF F F F F F F F F F FF X OX F F X X OF OF 


/* 


Ugly... If prequeue is not empty, we have to 
process it before releasing socket, otherwise 
order will be broken at second iteration. 
More elegant solution is required!!! 


Look: we have the following (pseudo) queues: 


packets in flight 
backlog 

prequeue 
receive_queue 


pes (uer IS) qe» 





Each queue can be processed only if the next ones 
are empty. At this point we have empty receive queue. 
But prequeue can be not empty after 2nd iteration, 
when we jumped to start of loop because backlog 
processing added something to receive queue. 

We cannot release sock(), because backlog contains 
packets arrived after  prequeued ones. 


Shorty cont nm Clee on recess ou 

the queues in order. We could make it more directly, 
requeueing packets from backlog to prequeue, if 

is not empty. It is more elegant, but eats cycles, 
unfortunately. 


(skb queue len(&tp-»ucopy.prequeue)) 
goto do prequeue; 
— SSe realtime oe ain Selacelilee _ A 


(copied >= target) { 


/* Do not sleep, just process backlog. */ 
release sock(sk); 

} else ( 

timeo = tcp data wait(sk, timeo); 


(user recv) { 
slime CINNA 


/* —— Restore normal policy in scheduler __ */ 
rf ((chunk = len — tp--ucopy.len) != 0) { 
len -= chunk; 
copied += chunk; 
} 
(tp-»rcv nxt == tp->copied_seq && 


Skb queue len(&tp-»ucopy.prequeue)) { 


do prequeue: 


) 
alit 


} 


tcp prequeue process(sk); 

if ((chunk = len - tp->ucopy.len) != 0) { 
len -= chunk; 
copied += chunk; 











((flags & MSG PEEK) && peek seq != tp->copied_seq) { 
current-»comm, current-»pid); 
peek seq = tp-»copied seg; 
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Ls 
188. 
199. 
LOO. 
19i. 
192 - 
1913] c 
194. 
195. 
LQG. 
LO. 
198. 
199. 
200 . 
AWA 
20/2. 
2/0 
204. 
BOS) - 
206. 
207. 
208. 
209. 
lOc 
DALAL 
21:2 c 
2s - 
214. 
BAILS) c 
AUS. 
DAY c 
2er 
DX 
220. 
2217 
A c 
22:9 c 
224. 
Den) 
2267 
22 d c 
DO 
2297 
ZS Or 
Z3 c 
23 2 
2099F 
234. 
2 SS c 
Zeon 
AST c 
DNS} c 
2097 
240. 


24 
24 
24 
24 
24 
24 
24 
24 





249. 
BOO: 
2c 
252 c 
259k 
254. 
BSS) « 


co -10|01.» CO N29 2S 


continue; 


found ok skb: 
/* Ok so how much can we use? */ 
used skb->len offset; 
if (len < used) 
used = len; 








/* Do we have urgent data here? */ 
Wie (Ooo ee lense 1 
u32 urg offset = tp->urg_seq - *seq; 
if (urg_offset < used) { 
if (!urg_offset) { 
if (!sock_flag(sk, SOCK_URGINLINE)) { 
++*seq; 
offset++; 
used--; 
if (!used) 
goto skip_copy; 
} 
} else 
used = urg_offset; 


} 


if (!(flags & MSG_TRUNC)) { 
err = skb_copy_datagram_iovec(skb, offset, 
msg-»msg iov, used); 


*seq += used; 
copied += used; 
len -= used; 


skip_copy: 
if (tp->urg_data && after(tp-»copied seg, tp->urg_seq)) { 
tp-»urg data = 0; 
tcp_fast_path_check(sk, tp); 





} 
if (used + offset < skb->len) 
continue; 


Wie (SOSA . ela Sie Lin) 
goto found_fin_ok; 
if (!(flags & MSG PEEK)) 
tcp eat skb(sk, skb); 
continue; 





POCNE Gestion Olg 
/* Process the FIN. */ 
++*seq; 
if (!(flags & MSG_PEEK) ) 
tcp_eat_skb(sk, skb); 
break; 
} while (len > 0); 














if (user_recv) { 
if (skb queue len(&tp-»ucopy.prequeue)) { 
GRID 
tp-»ucopy.len = copied > 0 ? len : 0; 


tcp_prequeue_process (sk); 


if (copied > 0 && (chunk = len - tp-»ucopy.len) != 0) 
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256 len -= chunk; 
2O. copied += chunk; 
258 } 
259 } 
260 
261 tp-»ucopy.task = NULL; 
262 tp->ucopy.len = 0; 
263 } 
264 
265 /* Clean up data we have read: This will do ACK frames. */ 
266 cleanup_rbuf(sk, copied); 
267 
268 release sock(sk); 
269 return copied; 
BIO 
eel (OXBhE E 
212 release sock(sk); 
DENS return err; 
274 
Za recv_urg: 
BUS err = tcp recv urg(sk, timeo, msg, len, flags, addr len); 
21 goto out; 
278 ) 
代码 段 5-21 tcp recvmsg 
5.2.10 释放 TCP 的 socket 
当 要 关闭 TCP 的 socket 时 要 进行 很 多 判断 ， 主 要 是 连接 状态 检查 ， 这 与 UDP、RAW IP 有 f 
大 不 同 。 
lo vore caga Closer nien GOE “Sle, long wiimote) 
PET 
aoe Btruct sk-buft *skbh 
4. int data was unread - 0; 
De int state; 
on 
ise lock_sock (sk); 
9o Sk-»sk shutdown = SHUTDOWN MASK; 
9c 
1309 if (sk->sk_state == TCP_LISTEN) { 
dua tcp set state(sk, TCP CLOSE); 
12: 
13. /* Special case. */ 
14. inet csk listen stop(sk); 
1L 
HEROS goto adjudge to death; 
he } 
iier 
WE /* We need to flush the recv. buffs. We do this only on the 
20 * descriptor close, not protocol-sourced closes, because the 
BAe * reader process may not have drained the data yet! 
BOR rA 
23 while ((skb = | skb_dequeue (&sk->sk_receive_queue)) != NULL) { 
24 u32 len = TCP_SKB_CB (skb)->end_seq - TCP_SKB_CB (skb)->seq - 
25 SIO=S1m sie] — SE sin 6 
26 data_was_unread += len; 
27 _ kfree skb(skb); 
28 ) 
2S) - 
Son sk_stream_mem_reclaim (sk); 
Se 
S25 fe INS Oue ne in. Cleeve eh eumel oe 0 SSC dli 
ds * 3.10, we send a RST here because data was lost. To 
Sale * witness the awful effects of the old behavior of always 
Y * doing a FIN, run an older 2.1.x kernel or 2.0.x, start 
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36. 
Siig 
Sion 
39 
40. 
41. 
d 
43. 
44. 
45. 
46. 
A 
48. 
49. 
50. 
Syl 
52% 
Sor 
54. 
S3 
SG. 
Bic 
58. 
SY) 
60. 
(SL c 
62. 
63. 
64. 
65. 
66. 
ile 
68. 
($9); 
3) - 
Tike 
UB. 
US. 
74. 
JS 
VG. 
Uke 
Jc 
yo 
80. 
eL c 
92 c 
83. 
84. 
85. 
86. 
NM 
88. 
89. 
9X9. 
Oe 
9o 
935 
94. 
95 c 
9c 
9H c 
QS c 
99c 
100. 
LO iL. 
LOZ . 
103. 
104. 


* a bulk GET in an FTP client, suspend the process, wait 
* for the client to advertise a zero window, then kill -9 
* the FTP client, wheee... Note: timeout is always zero 
* in such a case. 


if (data was unread) { 

/* Unread data was tossed, zap the connection. */ 
NET INC STATS USER(LINUX MIB TCPABORTONCLOSE); 
tcp set state(sk, TCP CLOSE); 

tcp send active reset(sk, GFP KERNEL); 

) else if (sock flag(sk, SOCK LINGER) && !sk-»sk lingertime) { 
= Check weiee) linger ancer hee mdgemmor mise ac carca. “// 
sk—->sk_prot-—>disconnect (sk, 0); 

NET INC STATS USER(LINUX MIB TCPABORTONDATA); 

) else if (tcp close state(sk)) { 

/* We FIN if the application ate all the data before 
* zapping the connection. 


yh 











RED-PEN. Formally speaking, we have broken TCP state 
machine. State transitions: 


IG)2 KSB EES IENG DY MERGE SEIS IE aac Ae IL 
TCP_SYN_RECV -» TCP_FIN_WAIT1 (forget it, it's impossible) 
TCPECTOSEAWATH GT NETT At la C Ks 














are legal only when FIN has been sent (i.e. in window), 
rather than queued out of window. Purists blame. 





F.e. "RFC state" is ESTABLISHED, 
if Linux state is FIN-WAIT-1, but FIN is still not sent. 


The visible declinations are that sometimes 
we enter time-wait state, when it is not required really 
(harmless), do not send active resets, when they are 
required by specs (TCP ESTABLISHED, TCP CLOSE WAIT, when 
they look as CLOSING or LAST ACK for Linux) 
Probably, I missed some more holelets. 

一 -ANK 


+ + OR OR + 0€ Ok OX F F F oko 0X F F ko Xo X F Xo x 


i 


tcp send fin(sk); 
} 


Sk stream wait close(sk, timeout); 


adjudge to death: 


state = sk-»5sk state; 

Sock hold(sk); 

Sock orphan(sk); 

atomic inc(sk-»sk prot-»^orphan count); 


fe ie is tiS last weleese_ Soek ain ates Lire, MWwINNNEPemovesibactkltodg A 
release sock(sk); 


/* Now socket is owned by kernel and we acquire BH lock 
to finish close. No need to check for user refs. 

ef 

local bh disable(); 

bh lock sock(sk); 


/* Have we already been destroyed by a softirq or backlog? */ 
if (state != TCP CLOSE && sk-»5sk state == TCP CLOSE) 
Or Gr SOUL 


/* This is a (useful) BSD violating of the RFC. There is a 

* problem with TCP as specified in that the other end could 

* keep a socket open forever with no application left this end. 
* We use a 3 minute timeout (about the same as BSD) then kill 
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LOS. * our end. If they send after that then tough - BUT: long enough 
106. * that we won't make the old 4*rto = almost no time - whoops 
EOT i * reset mistake. 
108. ES 
1L()8) * Nope, it was not mistake. It is really desired behaviour 
deste * f.e. on http servers, when such sockets are useless, but 
LLL * consume significant resources. Let's do it with special 
IREZ ERENG E CZOP EERON T ANK 
IRSE e 
114. 
LIS c if (sk-»sk state == TCP FIN WAIT2) { 
bs Struct GE NESOSkN to Nis cM SUIS 
LLY 3 if (tp->linger2 < 0) { 
MES tcp set state(sk, TCP CLOSE); 
13 9). tcp send active reset(sk, GFP ATOMIC); 
12700) « NET INC STATS BH(LINUX MIB TCPABORTONLINGER); 
I } else { 
T227 const int tmo = tcp fin time(sk); 
11223) 
124. ie (Emo, > LCPESEISEMEWASICTESISEN) SET 
LAS « inet_csk_reset_keepalive_timer (sk, 
126. tmo - TCP_TIMEWAIT_LEN) ; 
qu } else { 
128. tcp_time_wait (sk, TCP_FIN_WAIT2, tmo); 
qo goto qub; 
1130) } 
i132. } 
1:327 } 
133. if (sk-»sk state != TCP CLOSE) { 
Tags Sk stream mem reclaim(sk); 
dq. if (atomic read(sk-»sk prot-^»orphan count) > 
Sysctl tcp max orphans | | 
USS < (sk->sk_wmem_queued > SOCK MIN SNDBUF && 
PSPZ atomic_read(&tcp_memory_allocated) > sysctl_tcp_mem[2])) { 
l39. if (net ratelimit()) 
139). printk (KERN_INFO "TCP: too many of orphaned " 
140. "sockets\n"); 
141 tcp-set-state(sk, TCP CLOSE) ; 
142 tcp send active reset(sk, GFP_ATOMIC) ; 
143 NET INC STATS BH(LINUX MIB TCPABORTONMEMORY); 
144 ) 
145 ) 
146 
147 if (sk-»sk state == TCP CLOSE) 
FASZ inet csk destroy sock(sk); 
149. /* Otherwise, socket is reprieved until protocol close. */ 
150 
Ts Outs: 
Ais bh_unlock_sock (sk); 
Eo local bh enable(); 
154. Sock put (sk); 
155. } 





代码 段 5-22 tcp_close 函数 


把 之 前 对 状态 的 检查 去 掉 ， 实 际 到 最 后 忍无可忍 要 关闭 socket 时 ， 也 就 是 调用 了 
inet csk destroy sock 冰 数 ， 通 过 分 析 其 调用 树 ， 最 后 关键 的 动作 除了 清除 发 送 和 接收 队列 ， 再 就 
是 把 tcp_hashinfo 中 的 hash 节点 删除 。 































































































tcp_close 
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inet_csk_destroy_sock 























sk->sk_prot->destroy 














tcp_v4_destroy_sock 




















inet_put_port(&tcp_hashinfo) 























. inet put | 


port 




















. Sk del bind node 




















inet bind bucket destroy 








图 表 5-17 tcp. close 函数 调用 树 


Socket 系统 还 提供 了 一 个 类 似 于 close 的 函数 : int shutdown(int sockfd,int howto) 





TCP 连接 是 双向 的 (是 可 读 写 的 ), 当 
关闭 一 个 方向 ,这 个 时 候 我 们 可 以 使 用 shutdown.“ 




















howto=0 这 个 时 候 系统 会 关闭 读 





通道 .但 是 可 以 继续 往 接 字 描述 符 写 . 












































howto=1 关闭 写 通道 , 和 上 面相 反 , 着 时 候 就 只 可 以 读 了 . 
howto=2 关闭 读 写 通道 ,和 close 一 样 在 多 进程 程序 里 面 , 如 果 有 几 个 子 进 程 共享 一 个 套 接 字 时 ,如 





果 我 们 使 用 shutdown, 那么 所 有 的 子 进程 都 不 能 够 操作 了 ,这 个 时 候 我 们 只 能 够 使 用 close 来 关闭 


子 进程 的 套 接 字 描 述 符 





至 此 ， 关 于 基本 socket 实现 中 最 关键 的 部 分 ， 已 经 介绍 完毕 。 有 读者 说 怎么 没有 
H 
AE 








介绍 啊 ? 本 书 开头 不 是 说 了 吗 ， 








有 区 别 的 。 如 果 要 介绍 协议 ， 我 完全 可 以 把 REC I PLE TUS 















































本 书 不 是 解说 协议 本 喘 的 ， 而 】 


我 们 使 用 close 时 ,会 把 读 写 通道 都 关闭 ,有 时 候 我 们 希望 只 
| 对 不 同 的 howto, 系 统 回 






























































采取 不 同 的 关闭 方式 : 
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日 那 有 什么 技术 含 





LAS PP SLAY 


4 协议 是 如 何 实现 的 。 这 两 者 
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5.3 TCP 拥塞 控制 


当 网 络 中 存在 过 多 的 数据 包 时 ， 网 络 的 性 能 就 会 下 降 ， 这 种 现象 称 为 拥塞 。 在 网 络 发 生 拥 塞 
时 ， 会 导致 吞吐 量 下 降 ， 严重 时 会 发 生 “ 拥 塞 朋 泪 ”(congestion collapse) MZ. Kw, ME 
骨 溃 发 生 在 网 络 负载 的 增加 导致 网 络 效率 的 降低 的 时 候 。 最 初 观察 到 这 种 现象 是 在 1986 年 10 H, 
在 这 个 过 程 中 ,LBL 与 UC Berkeley Z P HAHM 32kbps 下 降 到 了 40bps. Floyd 43 £5 Ht 2E HH 
淡 主 要 包括 以 下 儿 种 传统 的 崩溃 、 未 传送 数据 包 导 致 的 衣 演 、 由 于 数据 包 分 段 造 成 的 骨 江 、 H 
益 增 长 的 控制 信息 流 造 成 的 朋 溃 等 。 
il Knee cit : Knee 
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图 表 5-18 网 络 负载 与 吞吐 量 及 响应 时 间 的 关系 























对 于 拥塞 现象 ， 我 们 可 以 进一步 用 图 1 来 描述 。 当 网 络 负载 较 小 时 ， 甜 吐 量 基 本 上 随 着 负载 
的 增长 而 增长 ， 呈 线性 关系 ， 响 应 时 间 增 长 缓慢 。 当 负载 达到 网 络 容量 时 ， 吞 叶 量 呈现 出 缓慢 增 
长 ， 而 响应 时 间 急 剧 增 加 ， 这 一 点 称 为 Knee。 如 果 负 载 继续 增加 ， 路 由 器 开始 丢 包 ， 当 负载 超过 

定量 时 , 吞吐 量 开 始 急剧 下 降 , 这 一 点 称 为 Cliff. 拥塞 控制 机 制 实际 上 包含 拥塞 避免 (congestion 
avoidance) 和 拥塞 控制 (congestion control) 两 种 策略 。 前 者 的 目的 是 使 网 络 运行 在 Knee 附近 ， 
避免 拥塞 的 发 生 ; 而 后 者 则 是 使 得 网 络 运 行 在 Cliff 的 左 侧 区 域 。 前 者 是 一 种 “预防 ”措施 ， 维 持 网 
络 的 高 吞吐 量 、 低 延迟 状态 ， 避 免 进入 拥塞 ; 后 者 是 一 种 “恢复 ”措施 ， 使 网 络 从 拥塞 中 恢复 过 来 ， 
进入 正常 的 运行 状态 。 
拥塞 现象 的 发 生 和 前 面 提 到 的 互联 网 的 设计 机 制 有 着 密切 关系 ， 我 们 对 这 种 设计 机 制作 一 个 
简单 的 归纳 : 
数据 包 交 换 (packet switched) 网 络 : 与 电路 交换 (circuit switched) 网 络 相 比 ， 由 于 包 交 
换 网 络 对 资源 的 利用 是 基于 统计 复 用 (statistical multiplexing) 的 ， 因 此 提高 了 资源 的 利用 效率 。 
但 在 基于 统计 复 用 的 情况 下 ， 很 难保 证 用 户 的 服务 质量 (quality of service，QoS)， 并 且 很 容易 出 
现 数据 包 “ 乱 序 ” 的 现象 ， 对 乱 序 数据 包 的 处 理会 大 大 增加 拥塞 控制 的 复杂 性 。 
无 连接 (connectionless) 网 络 : 互联 网 的 节点 之 间 在 发 送 数 据 之 前 不 需要 建立 连接 ， 从 而 
简化 了 网 络 的 设计 ， 网 络 的 中 间 节 点 上 无 需 保 留 和 连接 有 关 的 状态 信息 。 但 无 连接 模型 很 难 引入 
接纳 控制 Cadmission control)， 在 用 户 需 求 大 于 网 络 资源 时 难以 保证 服务 质量 ; 此 外 ， 由 于 对 数据 
发 送 源 的 追踪 能 力 很 差 , 给 网 络 安全 带 来 了 隐患 ; 无 连接 也 是 网 络 中 出 现 乱 序数 据 包 的 主要 原因 。 

“尽力 而 为 ”的 服务 模型 不 对 网 络 中 传输 的 数据 提供 服务 质量 保证 。 在 这 种 服务 模型 下 ， 所 
有 的 业务 流 被 “一 视 同仁 ”地 公平 地 苋 争 网 络 资源 , 路 由 器 对 所 有 的 数据 包 都 采用 先 来 先 处 理 (First 
Come First Service, FCFS) 的 工作 方式 ， 它 尽 最 大 努力 将 数据 包 包 送 达 目的 地 。 但 对 数据 包 传 递 
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的 可 靠 性 、 延 迟 等 不 能 提供 任何 保证 。 这 很 适合 Email. Ftp, WWW 等 业务 。 但 随 着 互联 网 的 飞 
速 发 展 ，IP 业务 也 得 到 了 快速 增长 和 多 样 
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化 。 特 别 是 随 着 多 媒体 业务 的 兴 


£2， 计算 机 已 经 不 是 单 









































纯 的 处 理 数 据 的 工具 。 这 对 互联 网 也 就 相应 地 提出 了 更 高 的 要 求 。 对 那些 有 人 带宽、 延迟 、 延 迟 持 





动 等 特殊 要 求 的 应 用 来 说 ， 现 有 的 “尽力 而 为 ”服务 显然 








5.3.1 TCP 拥塞 控制 机 制 介绍 

















基于 源 端 的 拥塞 控制 策略 ， 











， 使 用 最 为 广泛 的 是 TCP 





























前 互联 网 中 使 用 最 为 广泛 的 传输 协议 。 根据 MCI 的 统计 ， 互 联网 上 总 字 节 数 
的 90% 使 用 TCP 协议 传输 。 早期 的 TCP 协议 只 有 基于 窗口 的 流 控制 (flow 

















Re UIT] o 








协议 中 的 拥塞 控制 策略 ，TCP 协议 是 目 















































提出 了 “ 慢 启 动 ”(Slow Start) #ll* 
版 本 增加 了 “快速 重 传 ”(Fast Retransmit)、 
不 严重 时 采用 “ 慢 启动 ”算法 而 造成 过 度 减 小 发 送 窗 口 尺 寸 的 现象 ， 这 村 
现 TCP 的 改进 版 本 如 NewReno 和 选择 性 应 答 (selective 
正 是 这 些 拥 塞 控 制 机 制 防止 了 今天 网 络 的 拥塞 朋 误 。 























这 4 个 核心 算法 组 成 。 近 几 年 又 出 


acknowledgement，SACK) 等 。 














TCP 拥塞 控制 四 个 主要 过 程 





1. 慢 启 动 阶段 :早期 开发 的 TCP 应 用 在 启动 一 个 连 所 
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(如 图 4 Ca) 和 Cb) 所 示 









































的 95% 及 总 数据 包 数 





control) 机 制 而 没有 























NO 简要 介绍 如 下 : 




















样 很 容易 导致 路 由 器 缓存 空间 耗 尽 ， 网 络 发 生 拥 塞 























由 于 TCP 源 端 无 法 知道 
发 送 大 量 数 据 ， 而 只 外 能 逐 














Wmi cwnd 大 小 发 送 数据 ， 
FE cwnd 就 将 随 着 回路 响应 时 


























逐步 增加 每 次 发 送 的 数据 量 











拥塞 控制 机 制 ， 因 而 易 导 致 网 络 拥塞 。1988 年 Jacobson 针对 TCP 在 网 络 拥塞 控制 方面 的 不 足 ， 
HI a” (Congestion Avoidance ) 算法 
“快速 恢复 ”(Fast Recovery) 算法 ， 避 免 了 网 络 拥塞 
E TCP 的 拥塞 控制 就 主要 由 


k. 1990 年 出 现 的 TCP Reno 
































让 时 会 向 网 络 中 发 送 大 量 的 数据 包 ， 这 
， 使 得 TCP 连接 的 否 吐 量 急 剧 下 降 。 
网 络 资 源 当 前 的 利用 状况 ， 因 此 新 建立 的 TCP 连接 不 能 一 开始 就 



































量 ， 以 避免 上 述 现象 的 发 生 。 具 体 地 说 ， 
































当 建 立新 的 TCP 连接 时 , 拥塞 窗口 (congestion window, cwnd) 初始 化 为 一 个 数据 包 大 小 。 
每 收 到 一 个 ACK 确认 ，cwnd 就 增加 一 个 数据 包 发 送 量 ， 这 
间 (Round Trip Time, RTT) 旦 指数 增长 ， 源 端 问 网 络 发 送 





的 数据 量 将 急剧 增加 。 事 实 上 ， 慢 局 动 一 点 也 不 慢 ， 要 达到 每 RIT 发 送 W 个 数据 包 所 需 








时 间 仅 为 RTTxlogW. | 




















于 在 发 生 拥 塞 时 ， 拥 塞 窗 


口 会 减 半 或 降 到 1， 






































源 端 的 发 送 速率 最 多 是 链 路 带宽 的 两 倍 。 





因此 慢 局 动 确保 了 























2. 拥塞 避免 阶段 : 如 果 TCP 源 端 发 现 超时 或 收 到 3 个 相同 ACK 副本 时 ， 即 认为 网 络 发 生 了 














拥塞 (主要 因为 由 传输 引起 的 数据 包 损 
避免 阶段 。 慢 启动 阔 值 (ssthresh) 被 设置 为 当前 
被 置 1。 如 果 cwnd>ssthresh，TCP 就 执行 拥塞 避免 算法 ， 此 时 ，cwnd 在 每 次 收 到 一 个 
ACK 时 只 增加 lcwnd 个 数据 包 ， 这样 ， 在 一 个 RTT 内 ，cwnd 将 增加 1， 所 以 在 拥塞 避免 
阶段 ，cwnd 不 是 呈 指 数 增长 ， 而 是 线性 增长 。 















































3. 快速 重 传 和 快速 恢复 阶段 : 


















































坏 和 丢失 的 概率 很 小 《<<1%))。 此 时 就 进入 拥塞 
1 拥塞 窗口 大 小 的 一 半 ; 





如 果 超 时 ， 拥 塞 窗 


























快速 重 传 是 当 TCP 源 端 收 到 到 三 个 相同 的 ACK 副本 时 ， 即 认 











为 有 数据 包 于 失 ， 则 源 端 重 传 丢失 的 数据 包 ， 而 不 必 等 待 RTO 超时 。 同 时 将 ssthresh 设置 





为 当前 cwnd 值 的 一 半 ， 





并 且 将 ewnd 减 为 原先 的 一 




















于 “管道 ”模型 (pipe 

















model) 的 “数据 包 和 守恒” 的 原则 Ceonservation of packets principle )， 即 同一 时 刻 在 网 络 中 传 
输 的 数据 包 数 量 是 恒定 的 , 只 有 当 “ 旧 ”数据 包 离开 网 络 后 , 才能 发 送 “ 新 ”数据 包 进 入 网 络 。 

















Linux2.6 协议 栈 源 代码 分 析 
如 果 发 送 方 收 到 一 个 重复 的 ACK， 则 认为 已 经 有 一 个 数据 包 离 开 了 网 络 ， 于 是 将 拥塞 窗 
口 加 1。 如 果 “ 数 据 包 守 恒 * 原 则 能 够 得 到 严格 遵守 ， 那 么 网 络 中 将 很 少 会 发 生 拥 塞 ;， 本质 
上 ， 拥 塞 控 制 的 目的 就 是 找到 违反 该 原则 的 地 方 并 进行 修正 。 
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图 表 5-19(a) 慢 启动 和 拥塞 避免 


拥塞 人 
wa 





图 表 5-20(b) 快速 重 传 和 快速 恢复 





经 过 十 多 年 的 发 展 , 目前 TCP 协议 主要 包含 有 四 个 版 本 :TCP Tahoe. TCP Reno, TCP NewReno 
和 TCP SACK. TCP Tahoe 是 早期 的 TCP 版 本 ， 它 包括 了 3 个 最 基本 的 拥塞 控制 算法 一 “ 慢 启 动 ”、 
“拥塞 避免 "和 “快速 重 传 "。TCP Reno 在 TCP Tahoe 基础 上 增加 了 “快速 恢复 ”算法 。TCP NewReno 
对 TCP Reno 中 的 “快速 恢复 ”算法 进行 了 修正 ， 它 考虑 了 一 个 发 送 窗 口内 多 个 数据 包 丢 失 的 情况 。 
在 Reno 版 中 ， 发 送 端 收 到 一 个 新 的 ACK 后 就 退出 “快速 恢复 ”阶段 ， 而 在 NewReno IWP, RAH 
所 有 的 数据 包 都 被 确认 后 才 退 出 “快速 恢复 ”阶段 。TCP SACK 关注 的 也 是 一 个 窗口 内 多 个 数据 包 
丢失 的 情况 ， 它 避免 了 之 前 版 本 的 TCP 重 传 一 个 窗口 内 所 有 数据 包 的 情况 ,包括 那些 已 经 被 接收 
端正 确 接收 的 数据 包 ， 而 只 是 重 传 那 些 被 丢弃 的 数据 包 。 












































































































































第 258 页 


Linux2.6 协议 栈 源 代 码 分 析 











TCP Reno 


Timeout 
cwnd = cwnd +1 wae cwnd = 1 N 
-— osi 





SB 一 


» Three duplicate ACK: 


ssthresh = cwnd /2 
K cwnd = sshresh + 3 












/ 

4 cwnd 7sshiresh . 
discs Retransmit 
ssthresh\= cwnd /2 / 4 the lost packet j 
cwnd = | Three duplicate ACKs 





ssfhresh = cwnd /2 


cwnd = ssthresh +3 





ra 













Recovered the lost packe 


cwnd = ssthresh cwnd = cwnd +1 
per ACK 


cwnd = cwnd + l/ewnd 


per ACK 











图 表 5-21 TCP Reno 的 状态 机 


5.3.2 Linux 内 核 拥 塞 控制 功能 的 实现 


在 tcp. init 的 最 后 调用 了 tcp. register congestion control(&tcp reno), 说 明 目 前 Linux 内 核 缺 省 




















采用 的 是 reno 的 拥塞 控制 方法 。 在 tcp_v4_init_sock 函数 的 第 33 行 ， 我们 看 到 有 这 么 一 句 : 
icsk->icsk_ca_ops = &tcp_init_congestion_ops, ca 表示 congistion avoid， 其 中 比较 重要 的 操作 函数 











是 tcp_reno_cong_avoid， 实 现 如 下 : 








Oo 01:5 CQ) ho 2 
SV a Ve 


wo 


PRPRPRPPPRPRP PR 
(0 -1o00d0€0NPO:* 


NON OPKN OIN NN 
GE SEO 


/* 
* TCP Reno congestion control 
* This is special case used for fallback as well. 
BA 
/* This is Jacobson's slow start and congestion avoidance. 
SECOMM SS Demo zion 
*/ 
VOiLCl CEO_KEMO_COn¢g_AWwOUEl(SieeUeE SOC ^S. WS2 ack, uo, 
int flag) 
{ 
SELOGE 1e] SOCK “E> = wes ESR SKE, 


if (!tcp is cwnd limited(sk, in flight)) 
return; 


xmn safe area cedi ~// 
if (tp->snd_cwnd <= tp->snd_ssthresh) 
tcp slow start (tp); 
/* In dangerous area, increase slowly. */ 
else if (sysctl tcp abc) { 
/* RFC3465: Appropriate Byte Count 
* increase once for each full cwnd acked 
5 f 


if (tp->bytes_acked >= tp-»snd cwnd*tp-»mss cache) { 





第 259 页 





Linux2.6 协议 栈 源 代 码 分 析 








26. tp->bytes_acked -= tp-»snd cwnd*tp-»mss cache; 
alee if (tp->snd_cwnd < tp->snd_cwnd_clamp) 

20% tp-»snd cwnd-t; 

DOM ) 

S0. ) else ( 

Su s f= Tie Imo Cais i6 COS Sn owne += 1L / to->snc /Ownvel wy 
due if (tp-»snd cwnd cnt >= tp-»snd cwnd) { 

Sor if (tp->snd_cwnd < tp->snd_cwnd_clamp) 

34. tp->snd_cwndt++; 

m Esc cewuca cnt =; 

3236F } else 

S tp->snd_cwnd_cnt++; 

38. } 

39. } 





代码 段 5-23 tcp reno cong avoid 函数 























一 般 来 说 ， 重 传 发 生 在 超时 之 后 ， 但 是 如 果 发 送 端 接受 到 3 个 以 上 的 重复 ACK 的 情况 下 ， 就 
应 该 意识 到 ， 数 据 丢 了 ， 需 要 重新 传递 。 这 个 机 制 是 不 需要 等 到 重 传 定时 器 溢出 的 ， 所 以 叫做 快 
速 重 传 ， 而 重新 传递 以 后 ， 因 为 走 的 不 是 慢 启 动 而 是 拥塞 避免 算法 ， 所 以 这 又 叫做 快速 恢复 算法 。 
流程 如 下 : 
























































limi 


SEA 








1l. Ius) 3 个 重复 的 ACK IN, 将 ssthresh 设置 为 当前 拥塞 窗口 cwnd 的 一 半 。 
报 文 段 。 设 置 cwnd 为 ssthresh 加 上 3 倍 的 报 文 段 大 小 。 





















































2.， 每 次 收 到 另 一 个 重复 的 ACK 时 ， cwnd 增加 1 个 报 文 段 大 小 并 发 送 1 个 分 组 (如 果 新 的 
cwnd 人 允许 发 送 )。 





3. 当下 一 个 确认 新 数据 的 ACK 到 达 时 , 设置 cwnd 为 ssthresh (在 第 1 步 中 设置 的 值 )。 这 个 

ACK 应 该 是 在 进行 重 传 后 的 一 个 往返 时 间 内 对 步骤 1 中 重 传 的 确认 。 另 外 ， 这 个 ACK 也 
应 该 是 对 丢失 的 分 组 和 收 到 的 第 1 个 重复 的 ACK 之 间 的 所 有 中 间 报 文 段 的 确认 。 这 一 步 
采用 的 是 拥 塞 避免 ， 因 为 当 分 组 丢失 时 我 们 将 当前 的 速率 减 半 。 
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Liu x26 YURI 


VO 复 用 技术 ， 即 应 月 


的 一 


客户 端 要 同时 处 理 标准 输入 和 TCP socket 当 输 入 阻塞 
有 于 多 路 同步 IO 模式 。 








第 6 章 Select 的 实现 机 制 




















以 下 几 个 方面 需要 











到 VO 复 用 技术 : 

















一 个 客户 同时 处 理 多 个 描述 符 (如 前 所 述 ) 











客户 同时 处 理 多 个 socket 
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TCP 服务 器 同时 处 理 监听 端口 和 连接 端口 

服务 器 同时 处 理 TCP 和 UDP 

. 服务 器 同时 处 理 多 个 服务 或 多 个 协议 
1 内核 等 待 某 一 或 菜 些 事 件 发 生 而 后 唤醒 进程 或 线程 超时 返回 。 这 是 实现 多 个 程序 并 行 












































时 不 能 立即 处 理 socket 所 以 需要 采用 


























种 手段 。 说 到 这 里 ， 我 得 提起 W.Richaed.Stevens 写 的 《UNIX 网 络 编程 》 书 中 提 到 多 种 实现 








程序 3 




















行 的 方法 ， 比 如 信号 驱动 ， 

















多 线程 等 ， 但 为 什么 我 要 单独 把 select 作为 一 章 呢 ? 从 性 能 上 





说 select 不 见得 比 多 线程 或 线程 池 好 ， 但 是 考虑 到 综合 性 能 ，select 作为 操作 系统 必须 支持 的 一 个 


接口 ， 比 其 它 儿 种 方式 要 好 很 多 。 



































候选 一 : 线程 。 虽 然 很 多 操作 系统 提供 了 基于 POSIX 的 多 线程 接口 ， 但 是 世界 上 还 有 很 多 髓 











入 式 系统 ， 没 有 完全 文 持 这 种 接口 ， 就 算 有 了 ， 己 


设备 


UNIX 和 Windows 的 信号 驱动 接口 完全 不 一 样 ， 很 难 想象 要 实现 这 样 的 移植 要 做 多 少 工作 。 更 难 























厂商， 这 是 很 痛苦 的 。 
候选 二 : 信号 驱动 。 如 果 说 线程 库 的 移植 还 算 比较 轻松 ， 那 么 信号 驱动 这 个 方法 就 非常 难 了 。 






































也 是 要 多 加 钱 去 买 这 个 模块 ， 对 于 成 本 敏感 的 















































得 是 几 百 种 能 入 式 操 作 系统 上 实现 这 样 的 方式 也 不 一 样 ， 对 于 厂商 来 说 ， 这 种 方法 几乎 可 以 无 视 


之 。 


能 ， 比 前 面 几 种 方式 要 差 ， 














候选 三 : 多 进程 /任务 。 移 植 性 还 是 比较 困难 ， 虽 然 可 以 做 一 些 封 装 来 规避 这 个 问题 ， 但 是 性 
因为 进程 /任务 切换 的 代价 比 线程 要 大 的 多 。 
























































综合 以 上 ，select 就 作为 一 种 折 中 的 方案 被 很 多 软件 包 提 供 商 选 为 缺 省 的 并 行 方式 引入 进来 。 





















































比如 Zebra 这 款 比 较 有 名 的 开源 路 由 软件 套件 。 还 有 一 些 通信 业界 比较 著名 的 软件 供应 商 ， 由 于 
这 里 就 不 说 它们 的 名 号 了 ， 不 过 我 还 是 把 这 些 软件 包 实现 大 致 方案 画 在 
。 其 中 心 的 “ 报 文 分 发 模块 ”是 一 个 单独 的 进程 /任务 ， 
个 中 心 的 其 它 任务 几乎 完全 受 它 调遣。 不 管 是 采用 何 种 进程 /任务 间 消 息 通 讯 方式 ， 都 达到 了 


我 不 
下 面 
在 这 
各 模 
吧 )。 








想 给 它们 免费 广告 ， 
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其 它 模块 (我 想 大 部 分 读者 都 和 

















它 的 实现 基础 就 是 select AL, FIZ 









































Hi socket 收发 报 文 是 属于 阻塞 性 质 的 














合 性 o 


上 文 提 到 一 个 套件 (suib 的 概念 ， 表 示 这 款 软 件 是 可 以 根据 客户 的 需求 〈 或 者 钱 ) 裁减 功能 模 
块 的 。 为 了 达到 可 裁减 的 目的 ， 必 须 把 这 些 模块 的 耦合 性 做 得 尽 可 能 低 ， 特 别 是 和 操作 系统 的 耦 


select 目前 几乎 是 最 好 的 选择 啦 ， 大 小 通 吃 ， 编 译 通 | 


灭口 ， 居 家 旅行 ， 必 备 良 药 啊 。 
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图 表 6-1 典型 的 软件 包 实 现形 式 


























上 图 是 不 是 象 一 棵 树 ?” 注意 ， 在 图 中 ， 所 有 用 户 层 的 软件 协议 包 以 及 报 文 分 发 模块 都 是 一 个 
软件 公司 提供 ， 而 且 基 本 上 是 一 个 大 “模块 ”提供 ， 这 样 可 以 减轻 用 户 编 译 和 调试 的 痛苦 。 
6.1.1 用 户 如 何 使 用 select? 
select 在 glic 中 的 函数 声明 如 下 : 


int select(int numfds, fd set *readfds, fd set *writefds, fd set *exceptfds, struct timeval 







































































*timeout); 
如 果 要 使 用 select 还 必须 了 解 以 下 几 个 宏 : 
FD_ZERO(*set) 清空 socket 集合 
FD_SET(s, *set) 将 s 加 入 socket 集合 
FD_CLR(s, *set) 从 socket 集合 去 掉 s 
FD_ISSET(s, *set) 判断 s 是 否 在 socket 集合 中 
常数 FD_ SETSIZE: 集合 元 素 的 最 多 个 数 


struct timeval { 














longtv sec; 秒 

long tv usec; E27) 

E 

对 于 第 三 个 参数 tmeval{} 结 构 ， 一 般 有 下 面 的 要 点 : 

1. 该 参数 用 以 指明 等 待 的 时 间 : 
a) “永远 等 待 ， 则 设置 NULL 指针 
b) “不 等 待 立即 返回 ， 那 么 设置 该 结构 中 2 个 成 员 值 都 设 为 0 
c) ”等 待 一 定时 间 就 必须 具体 设置 

2. 并 不 十 分 精确 最 大 精度 10ms 但 强 于 sleepO 的 1s 

3. 因为 有 const 修饰 符 ， 所 以 该 值 不 会 被 修改 ， 若 要 计算 时 间 2 次 调用 时 间 函 数 求 差 时 









































































































































"m 


第 262 页 


readset writeset excepset 用 以 标示 我 们 需要 内 核 进行 检测 读 写 符 
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错误 的 描述 符 
1. #include <stdio.h> 
2. #include <sys/time.h> 
3. #include <sys/types.h> 
4. #include <unistd.h> 
Bs 
Oo HME 
7. main(void) 
ga. d 
a. fd set rfds; 
HOR struct timeval tv; 
ba int retval; 
2 
aber /* Watch stdin (fd 0) to see when it has input. */ 
14. FD ZERO(&rfds); 
T5 FD SET(0, &rfds); 
16. 
re /* Wait up to five seconds. */ 
HC tyty sec e 
19) - tv.tv usec = 0; 
20 coe (9) 
xe { 
TEXXH 1 表示 从 标准 输入 里 接收 数据 ， 比如 当 我 运行 该 程序 以 后 ， 随 便 键 入 普通 字符 ， 那 么 select 
会 接收 到 信号 并 返回 1， 如 果 等 了 5 秒 以 后 ， 还 没有 输入 ， 那 么 返回 0; 如 果 系 统 内 部 出 现 问题 ， 则 返 
回 一 1 . 
DU retval = select(1, &rfds, NULL, NULL, &tv); 
23 /* Don't rely on the value of tv now! */ 
24 
25 if (retval) 
26 printf("Data is available now.\n"); 
Qa (2 IDD_USSNW(O, Seri Mw UE eu 
28 
DIOE ) 
D return 0; 
Sls. 
代码 段 6-1select 用 法 
select 的 基本 用 法 就 是 这 样 的 ， 许 多 书 已 经 告诉 你 注意 第 一 个 参数 应 该 是 ft 十 1， 最 后 一 个 参 
数 是 超时 设置 , 已 经 有 人 进行 过 统计 ， 它 的 精度 在 10 毫秒 以 外 ， 即 虽然 timeval 的 tv_usec 是 微妙 
的 意思 ， 但 是 你 填写 时 还 是 要 填 入 一 个 很 大 的 值 ， 比 如 100000， 表 示 等 待 超时 为 100 毫秒 。 应 用 
层 要 注意 的 地 方 我 就 不 多 说 了 ， 现 在 我 们 来 了 解 一 下 内 核 做 了 什么 

















6.1.2 Select 的 内 核实 现 
很 明显 ，select 系统 调用 并 不 只 是 网 络 使 用 ， 从 系统 调 
用 对 应 ， 而 不 是 放 在 sys_socketcall 中 的 一 个 分 支 。 












































| 的 安排 就 可 看 








Co 
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是 专门 有 一 个 调 








1. asmlinkage long sys select(int n, fd set __user *inp, 
2 fd set _ user *exp, struct timeval _ user *tvp 
Sa. at 

4, s64 timeout = -1; 

Des struct timeval tv; 

6. int ret; 

des 

9. alse (Grave) i 

"a. if (copy from user(&tv, tvp, sizeof(tv))) 

HOR return -EFAULT; 

el 

12. ii (ewotwasee < 9 ||| twuiewmsee < 0) 

LS return -EINVAL; 


fd_set 
) 


user *outp, 
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14. 
TSF 
LG. 
Ds 
TF 
19. 
20 . 
2L c 
22 c 
2.3)c 
24. 
25. 
Z6. 
Bile 
28. 
29 
30. 
Silke 
S 
33e 
34. 
S3 
36. 
S c 
38. 
SOF 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
50). 


51. 


/* Cast to u64 to make GCC stop complaining */ 

if ((u64)tv.tv_sec >= (u64)MAX_INT64_SECONDS) 
timeout = -1; /* infinite */ 

else { 
timeout = ROUND UP(tv.tv usec, USEC P 
timeout += tv.tv sec * HZ; 











zu 





R SEC/HZ); 





ret — core sys select(n, inp, outp, exp, &timeout); 


if (tvp) { 
Struct timeval rtv; 


if (current-»personality & STICKY TIMEOUTS) 
goto sticky; 


rtv.tv usec = jiffies to usecs(do div((*(u64*)&timeout), HZ)); 
rtv.tv sec = timeout; 
if (timeval compare(&rtv, &tv) »- 0) 
rtv = tv; 
if (copy to user(tvp, &rtv, sizeof(rtv))) { 
sticky: 
/* 
* If an application puts its timeval in read-only 
* memory, we don't want the Linux-specific update to 
* the timeval to cause a fault after the select has 
* completed successfully. However, because we're not 
* updating the timeval, we can't restart the system 
^ (eeu 
A 
if (ret == -ERESTARTNOHAND) 
ret = -EINIR; 


return ret; 





代码 段 6-2sys select 函数 
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core_sys_select 




















do_select 

















max_select_fd 














poll_initwait 




















set_current_state 
(TASK_INTERRUPTIBLE) 




















socket_file_ops: 


死 循环 for 循 环 | for 循环 f_op->poll > sock_poll 


nk 32XX 


























cond resched 

















sock->ops->poll 

















schedule_timeout 























__set_current_state 
(TASK_RUNNING) 











图 表 6-2 core sys select 函数 调用 树 





socket, file ops () Zi jJ poll 指向 sock_poll， 其 会 调用 sock->ops->poll， 根 据 协 议 的 不 同 ， 











针 分 别 指 问 : 
RAW: inet_sockraw_ops>datagram_poll 
UDP: inet_dgram_ops>udp_poll 
TCP: inet_stream_ops>tcp_poll 
其 中 udp poll 内 部 也 会 调用 datagram_poll 



































TTA 

2« *  datagram poll - generic datagram poll 

S ARE tot nu 

4. * (sock: socket 

iic * (wait: poll table 

6. 5i 

Jc * Datagram poll: Again totally generic. This also handles 

on * sequenced packet sockets providing the socket receive queu 
9a * is only ever holding data ready to receive. 

LO, $9 

11. * Note: when you don't use this routine for this protocol, 
12. * and you use a different write policy from sock writeable() 
13. * then please supply your own write space callback. 

dob. rug 

i5. us ne slime Cleicacicein joo (eure isle “wild, Seeuce SOCKS "eX. 
6 poll_table *wait) 

Lys { 

Is. Siero eel ec. = OCIS eile 

19. unsigned int mask; 

20 
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21 c 
p 
Z3 c 
24. 
25. 
26. 
2 e 
DIOE 
28). 
30. 
Sum 
32. 
Ec 
34. 
35. 
36. 
SU 
SHS 
39. 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
50. 
DE 
BD 
SENS 


poll wait(file, sk-»sk sleep, wait); 
mask = 0; 


/* exceptional events? */ 
if (sk-»5sk err | !skb queue empty(&sk-»5sk error queue)) 











mask |= POLLERR; 

if (sk-»sk shutdown & RCV SHUTDOWN) 
mask |= POLLRDHUP; 

if (sk-»sk shutdown == SHUTDOWN MASK) 
mask |= POLLHUP; 














/* readable? */ 

if (!skb queue empty(&sk-»sk receive queue) I 
(sk-»sk shutdown & RCV_SHUTDOWN) ) 
mask |= POLLIN | POLLRDNORM; 








/* Connection-based need to check for termination and startup */ 
if (connection_based(sk)) { 
if (sk->sk_state == TCP_CLOSE) 
mask |= POLLHUP; 
/* connection hasn't started yet? */ 
if (sk->sk_state == TCP_SYN_SENT) 
return mask; 


} 


/* writable? */ 
if (sock_writeable (sk) ) 
mask |= POLLOUT | POLLWRNORM | POLLWRBAND; 
else 
set bit(SOCK ASYNC NOSPACE, &sk->sk_socket-—>flags) ; 


return mask; 


} 





代码 段 6-3 datagram poll 函数 



































poll wait 内 部 调用 _pollwait， 但 却 不 是 直接 调用 的 ， 而 是 通过 函数 指针 调用 ， 此 函数 指针 


























内 核 中 poll. initwait 初始 化 为 pollwait， 它 就 是 将 等 待 队列 








AOLOO -101014 €) lo L2 


=. o. 


/* Add a new entry */ 

static void __pollwait (struct file *filp, wait queue head t *wait address, 
poll table *p) 

{ 

struct poll table entry *entry = poll get entry(p); 


entry-»filp = filp; 
entry-»wait address = wait address; 
init waitqueue entry(&entry-»wait, current); 


. add wait queue(wait address,&entry-^wait); 


} 





代码 段 6-4 — pollwait 函数 








这 里 提 一 下 select 的 不 足 : 
EH fd set 管理 所 有 要 监视 的 IO 句柄 ， 但 是 fd set 是 一 个 位 数组 ， 只 能 接受 句柄 号 小 于 












































FD_SETSIZE (默认 1024) 的 句柄 , 虽然 进程 默认 句柄 号 都 是 小 于 1024 的 , 但 是 可 以 通过 ulimit - 
n 来 修改 ， 尤 其 是 连接 数 超过 1024 时 必需 这 么 做 〈 实 际 可 能 更 少 )， 如 果 要 将 大 于 1024 的 句柄 放 


入 fd_set， 就 可 能 发 生 数 组 越界 程序 崩溃 的 场面 。 不 仅 如 此 ， 还 有 性 能 上 的 瓶 陈 。 它 们 都 会 随 着 






























































连接 数 的 增加 性 能 直线 下 降 。 这 主要 有 两 个 原因 ， 其 一 是 每 次 select 操作 ，kernel 都 会 建立 一 个 当 
前 线程 关心 的 事件 列表 ， 并 让 线程 阻塞 在 这 个 列表 上 ， 这 是 很 耗 时 的 操作 。 其 二 是 每 次 select ik 
回 后 ， 线 程 都 要 扫描 所 有 fd 来 分 发 已 发 生 的 事件 ， 这 也 是 很 耗 时 的 。 当 连接 数 巨 大 时 ， 这 种 消耗 
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积累 起 来 ， 就 很 受 不 了 。 

















下 面 这 个 内 容 不 好 单独 做 为 一 节 ， 只 好 放 在 一 个 小 框 里 提示 读者 吧 。 

这 是 Linux 的 特性 ,在 VxWorks5.5 中 没有 这 样 的 特性 。 当 创建 一 个 socket 以 后 ,调用 setsockopt 
(sockfd, SOL, SOCKET, SO_BINDTODEVICE, (char *)&if_ppp0, sizeof(if_ppp0)), Jf Z #48 sock (129 
sk bound dev if 指定 为 eth0 的 设备 索引 ifindex。 这样 可 以 控制 发 包 的 接口 ,而 且 简 化 路 由 的 查找 。 

内 核 里 对 应 的 函数 是 sock_setsockopt, 最 重要 的 操作 就 是 sk->sk_bound_dev_if = dev->ifindex;. 
当 发 送 报 文 时 ， 会 把 sk->?sk_bound_dev_ 放 赋 给 相应 Howi>oif， 如 果 查 找 路 由 表 失 败 ， 那 么 这 个 oif 
DREMA (HŽ ip_toute_output_slow) ， 我 们 会 找到 相应 的 设备 。 
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第 7 章 2 层 功能 





2 层 功能 就 是 “ 桥 ” 的 功能 。 桥 是 比较 笼统 的 说 法 ， 它 包括 了 HUB (RRi) Switch (交换 
机 ) 等 一 些 设备 ， 它 们 的 共性 在 于 使 用 2 层 的 报 文 关 并 进行 协议 交互 。 与 上 两 章 介绍 的 2 层 功 能 
不 同 ， 此 2 层 不 使 用 ARP， 那 么 对 于 服务 器 或 PC 领域 的 读者 来 说 ， 这 一 部 分 是 比较 陌生 的 ， 但 
对 于 通信 行业 的 读者 来 说 ， 这 一 章 就 显得 非常 亲切 了 。 


7.1 基本 的 2 层 知 识 


享 式 网 络 的 特点 是 ,网 络 上 任 一 瞬间 只 有 一 个 节点 在 发 送信 息 帧 ,而 其 他 节点 将 接受 所 有 的 
信息 帧 ,但 只 是 把 与 本 节点 地 址 相同 的 信息 帧 或 广播 帧 拷贝 下 来 .。 
对 于 共享 式 网 络 ,尤其 共享 式 以 太 网 ,存在 以 下 问题 
e 多 个 节点 共享 一 段 有 冲突 的 传输 介质 , 当 网 段 上 存在 大 量 的 用 户 节点 时 ,冲突 将 不 可 能 避 
免 地 发 生 , 且 冲突 次 数 随 负载 的 增 加 而 增加 ,导致 网 络 的 性 能 急剧 下 降 . 虽 然 共 享 式 以 大 网 
的 传输 速率 为 10Mb/s, 但 实际 的 可 用 带宽 只 有 3.5-4.5 Mb/s, 介 质 利 用 率 很 低 . 
e 随 肴 客户 端 /服务 器 体系 结构 的 发 展 ,客户 端 需要 更 多 地 与 服务 器 交换 信息 ,导致 网 络 的 通 
信 量 成 倍 地 增加 ,共享 式 网 络 所 提供 的 带宽 越 来 越 不 能 满足 不 断 增 长 的 带宽 需求 . 
e 多 媒体 信息 ,尤其 是 图 象 的 适时 传输 ,需要 占用 大 量 的 带宽 .共享 式 网 络 提供 的 带宽 难于 给 
予 充 分 的 文 持 . 
交换 式 网 络 不 是 象 共 享 式 网 络 那 样 把 报 文 分 组 广播 到 每 个 节点 ， 而 是 在 节点 间 沿 着 指定 的 路 
径 传输 报 文 分 组 。 着 相当 于 一 个 并 行 网 络 系统 ， 多 对 不 同 源 节 点 和 不 同 的 节点 之 间 可 以 同时 进行 
通信 ， 而 不 会 发 生 冲 突 ， 大 大 提高 网 络 的 可 用 带宽 。 


7.2 Linux 桥 实现 的 基本 框架 


我 们 已 经 在 前 面 分 析 报 文 的 接收 过 程 中 提 到 了 一 个 函数 _handle_bridge, 这 个 函数 就 是 处 理 2 
层 协议 报 文 的 地 方 ， 当 配置 了 BRIDGE 的 时 候 ， 这 个 函数 有 如 下 功能 











































































































































































































































































































































































































netif_receive_skb 执行 完 此 画 数 
后 直接 跳出 来 


handle_bridge 
































deliver_skb 























br_handle_frame_hook 








-br_handle frame 
函数 


图 表 7-1 netif_receive_skb 调用 handle_bridge 分 支 



















































































在 这 个 函数 中 先 判断 报 文 所 属 的 设备 是 否 已 经 被 配置 为 桥 模式 ， 如果 没有 设置 ， 那么 就 返回 ， 
如 果 设 置 为 桥 模 式 了 ， 就 调用 deliver_skb 把 报 文 传 到 上 层 ， 在 这 里 上 层 指 的 是 2 层 及 3 层 ， 如 果 
我 们 注册 了 2 层 协 议 处 理 函 数 ， 就 可 以 调用 下 2 节 我 们 将 要 介绍 的 2 层 报 文 处 理 函 数 。 当 然 ， 如 
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RE ARP 或 IP 层 报 文 ， 也 会 进入 到 此 路 线 ， 当 netif_receive_skb 调用 handle bridge 之 后 ， 就 可 
以 不 用 调用 deliver_skb， 而 直接 返回 了 。 (请 自行 回顾 netif receive skb 函数 ) 





















































接 下 来 调用 br handle_frame_hook， 它 实 
《Linux 网 络 内 幕 中 》 已 经 介绍 , 我 就 不 多 说 ， RERA 


还 能 提供 2 层 的 快速 转发 的 能 力 ( 主 要 指 提 


7.3 VLAN 


IEEE 802.1Q 两 个 主要 议题 : 
1. 桥接 /交换 网 络 





























高 软件 的 转 





发 能 力 )。 





2. VLANs: VLAN: Virtual Local Area Network( 虚 拟 局 域 网 )， 


7.3.1 VLAN 概念 














际 是 一 个 指向 br handle frame 的 指针 ， 这 个 函数 在 





STP (生成 树 ) 协议 ， 然 后 





熟悉 通信 设备 的 读者 可 以 跨 过 这 一 节 。 假 设 下 图 中 的 情形 ， 茶 公司 研发 部 和 财务 部 的 机 器 接 
































到 同一 个 子 网 里 ， 最 早期 的 形式 是 使 用 集线器 CHUB), HUB 的 特 怕 





























E 是 所 有 报 文 都 广播 。 这 会 导 





致 2 个 问题 : 1) 安全 性 , 研发 人 员 会 使 用 侦 听 技术 把 任何 报 文 接收 上 来 , 我 就 曾经 干 过 这 样 的 事 ， 








幸运 的 取得 了 部 门 经 理 的 Email 帐号 和 密码 ， 不 过 我 只 是 做 试验 ,但 有 的 人 不 一 定 都 是 做 试验 哦 。 








2) 带宽 利用 率 。 由 于 广播 所 有 报 文 ， 办 公 室 
了 ， 会 产生 一 种 叫 广播 风 暴 的 恶性 事件 。 

























































































为 了 解决 这 种 事情 ， 通 信 设 备 制造 商 开发 出 交换 机 (Swit 
听 技 术 不 能 派 上 用 场 了 。 这 就 是 传统 的 二 层 交 换 机 。 可 是 如 果 研发 部 的 人 想 跑 到 财务 的 机 器 上 ， 


























还 是 非常 容易 ， 毕 竞 都 是 一 个 局 域 网 ! 











， 而 且 





发 出 交换 机 









































址 报 文 的 软件 ， 可 能 研发 部 的 机 器 也 不 能 正常 工作 。 
为 了 解决 这 种 事 ， 人 们 采用 VLAN 技术 来 应 付 。 弄 
虚拟 局 域 网 ， 二 财务 部 的 机 器 部 署 到 另 一 个 虚拟 局 域 网 。 这 有 

















里 的 网 线 上 充斥 着 垃圾 数据 ， 如 果 形 成 了 环 路 更 不 得 








(Switch)， 它 能 使 报 文 不 会 随意 广播 ， 侦 

















， 如 果 某 个 粗心 的 财务 运行 了 某 种 狂 发 未 知 目的 地 


























Eris. UAR 


发 部 的 机 器 都 部 署 到 一 个 











要 配置 路 由 才 行 。 这 样 ， 财 务 部 网 络 出 了 问题 不 会 影响 





器 可 能 要 费 点 脑子 了 。 














由 于 带 VLAN 功能 的 交换 机 价格 便宜 ,而 性 
几 是 支持 VLAN 的 交换 机 都 叫做 3 层 交 换 机 ， 





26 
He o 
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SANE. MW 





9j ^ Ja) Sa EL AS FE A A 





开发 人 员 想 进入 财务 部 的 机 


能 也 不 错 , 逐渐 取代 了 低 端 路 由 器 的 市 场 。 目 前 ， 








因为 VLAN 间 的 数据 转发 必须 建立 在 3 层 路 由 的 功 
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集线器 





VLAN100 





图 表 7-2 VLAN 使 用 场景 之 一 





《我 很 想 把 最 后 的 那个 步骤 写成 三 层 交 换 机 ， 但 我 觉得 不 太 严谨 ， 因 为 三 层 交 换 机 不 一 定 要 
VLAN 技术 ) 
交换 机 的 进化 过 程 我 就 介绍 到 这 里 ， 我 们 来 看 看 标准 中 是 如 何 实现 VLAN 的 吧 。 
E User_priority: Ek, 从 0 到 7 
a 
a 











CFI:Canonical Format Indicator 

















VID:VLAN 号 ,表示 该 报 文 属于 哪 一 个 VLAN， 由 12bit 组 成 ， 即 有 4096 个 VLAN, 不 过 
0 号 VLAN 保留 ， 没 有 任何 意义 





增加 一 个 新 字段 
Ethernet II 











DATA | FCS 











IEEE 802.3 6 6 46~1500 4 




















DATA | FCS 














VID(12 bit) 








图 表 7-3 VLAN 的 格式 


7.3.2 Linux 下 VLAN 一 一 存在 巨大 的 缺陷 

为 了 要 使 用 VLAN, 在 编译 Linux 内 核 的 时 候 要 选 上 该 特性 , 因为 目前 PC 机 缺 省 情况 下 是 不 
采用 VLAN 的 , 因为 这 个 不 仅 需 要 PC 的 支持 , 还 要 交换 机 的 配置 来 协 做 , 比如 你 配置 自己 PC VID 
为 1， 而 与 中 间 交 换 机 的 接口 被 管理 员 设 置 到 VID2， 那 么 你 的 报 文 发 不 出 去 ， 外 面 的 报 文 也 不 能 
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进入 你 的 机 器 ， 恭 喜 ， 你 不 能 聊天 泡 MM T. 














.func = vlan skb recv, 





_ iype-ETH P 8021Q, | 


/ is 
vlan proto init I 由 























dev-add -paek(&vlan -paeket type) #Evian_device_eventig MEH 


到 netdev_chain 链 表 上 














一 
一 


register_netdevice_notifier(&vlan_notifier_block) | 一 




















vlan ioctl set(vlan ioctl handler) 











N —itvlan ioctl hook 


一 一 一 一 iB E 


表 7-4 vlan proto init 函数 调用 树 





sock_ioctl 





SIOCSIFVLAN 
SIOCGIFVLAN 



































就 是 画 数 
vlan ioctl hook vlan ioctl handler 
DEL VLAN CMD ADD VLAN CMD 
unregister vlan device register vlan device 




















图 表 7-5 sock ioctl 关于 VLAN 的 分 支 























1. /* Attach a VLAN device to a mac address (ie Ethernet Card). 
2A * Returns the device that was created, or NULL if there was 
Sc * an error of some kind. 

ái. i 

5. static struct net device *register vlan device(const char *eth IF name, 
6. unsigned short VLAN ID) 

cee tt 

Ss (Sea oe wlan acne “Creo 

9. struct net_device *new_dev; 

10. struct net_device *real_dev; /* the ethernet device */ 

11. char name[IFNAMSIZ]; 

T2 

iS. 

14. if (VLAN_ID >= VLAN_VID_MASK) 

dis goto out ret null; 

IGS 

nee ee larning tomet WEE Ine e 

18. real dev = dev get by name(eth IF name); 

19. if (!real. dev) 

20 goto out ret null; 

2i 

22. if (real dev-»features & NETIF F VLAN CHALLENGED) { 

23 printk(VLAN DBG "$s: VLANs not supported on %s.\n", 

24 . FUNCTION , real dev-»name); 
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DOE 
DI 
Bike 
DOR 
DIOE 
SUR 
SL c 
S2 c 
E 
34. 
Sor 
36. 
ST c 
39 c 
39). 
40. 
avis 
Ass 
43. 
44. 
45. 
46. 
Agim: 
48. 
49. 
50). 
Ble 
52 c 
SB 
54. 
S9 
IE 
S c 
Si c 
39. 
60. 
Gas 
62. 
($9.3) c 
64. 
65. 
66. 
STe 
68. 


69. 
70. 
ele 
pr 
WS. 
74. 
US 
Yo: 
T c 
IG e 
Vo. 
80. 
Sul. 
82. 
83. 
84. 


goto out put dev; 
} 





if ((real_dev->features & NETIF F HW VLAN RX) && 
(real dev-»vlan rx register == NULL | | 
real dev-»vlan rx kill vid == NULL)) { 
printk(VLAN DBG "$s: Device $s has buggy VLAN hw accel.\n", 
. FUNCTION , real dev-»name); 
goto out put dev; 
} 





if ((real_dev->features & NETIF F HW VLAN FILTER) && 
(real dev-»vlan rx add vid == NULL | | 
real dev-»vlan rx kill vid == NULL)) { 
printk(VLAN DBG "$s: Device $s has buggy VLAN hw accel.\n", 
. FUNCTION , real dev-»name); 
goto out put dev; 
} 


/* From this point on, all the data structures must remain 
* consistent. 

iA 

Cinq yos 


/* The real device must be up and operating in order to 
* assosciate a VLAN device with it. 
e 
if (!(real dev-»flags & IFF UP)) 
goto out unlock; 


if ( find vlan dev(real dev, VLAN ID) != NULL) { 
/* was already registered. */ 


printk(VLAN DBG "$s: ALREADY had VLAN registered\n", | FUNCTION ); 


goto out unlock; 


} 


.Goce ser up ene rel or Ene evaee 27 
switch (vlan name type) { 
case VLAN NAME TYPE RAW PLUS VID: 
/* 名 字 看 起 来 象 这 样 : eth1.0005 */ 
snprintf (name, IFNAMSIZ, "%s.%.4i", real dev-»name, VLAN ID); 
break; 
case VLAN NAME TYPE PLUS VID NO PAD: 
/* JE VID WA VLAN 的 名 字 中 
* 名 字 看 起 来 象 这 样 : vlan5 











Tt 

















5 
snprintf(name, IFNAMSIZ, "vlan%i", VLAN ID); 
break; 


case VLAN NAME TYPE RAW PLUS. VID NO PAD: 


/* 名 字 看 起 来 象 这 样 : eth0.5 














ay 
snprintf (name, IFNAMSIZ, "%s.%i", real dev-»name, VLAN ID); 
break; 


case VLAN NAME TYPE PLUS VID: 
/* 名 字 看 起 来 象 这 样 : vlan0005 
i 
default: 
snprintf (name, IFNAMSIZ, "vlan%.4i", VLAN ID); 











he 
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85. new dev = alloc netdev(sizeof(struct vlan dev info), name, 
gu. vlan setup); 


Static void vlan setup(struct net device *dev) 


( 




















SET MODULE OWNER (dev); 























对 于 普通 以 太 网 接口 就 调用 ether_setup 函数 
而 对 于 VLAN 设备 只 能 调用 vlan setup /* dev->ifindex=0; it will be set when added 
to the global list.iflink is set as well.*/ 































































































87. new_dev->flags = real_dev-—>flags; 
88. new_dev->flags &= ~IFF_UP; 让 我 们 知道 这 是 一 块 VLAN“ 设 备 ” 
89. dev-»priv flags |= IFF 802 1Q VLAN; 
90. new dev-»state = (real dev-»state & ( VLAN 没有 自己 的 队列 ， 因 为 底下 的 硬件 设备 能 完成 我 们 需 
9L ., (1«« LINK STATE DORMA nj - 切 
92. dev-»tx queue len = 0; 
93. /* need 4 bytes for extra VLAN header| dev-»open = vlan dev open; 
94. * hope the underlying device can han dev-»stop - vlan dev. stop; 
95. */ dev-»set mac address - 
96. new dev-»mtu = real dev-»mtu; lvlan dev set mac address; 
25 7 cae ; TOi dev-»destructor = free netdev; 
$ : maybe just assign i o be = : = ; " 
0 eiue M MUN UU dev-»do ioctl vlan dev ioctl; 
100. 
ARONS new_dev->hard_header_len = real_dev->hard_header_len; 
1025 if (!(real dev-»features & NETIF F HW VLAN TX)) { 
LOS. /* Regular ethernet + 4 bytes (18 total). */ 
104. new dev-»hard header len += VLAN HLEN; 
LOS. } 
T0563 memcpy (new dev-»broadcast, real dev-»broadcast, real dev-»addr len); 
LOGS memcpy (new dev-»dev addr, real dev-»dev addr, real dev-»addr len); 
108. new dev-»addr len = real dev-»addr len; 
199. 
LSD. if (real_dev->features & NETIF F HW VLAN TX) { 
A E Ios new dev-»hard header = real dev-»hard header; 
1.1.2, c new dev-»hard start xmit = vlan dev hwaccel hard start xmit; 
11,9 5 new dev-»rebuild header = real, dev-»rebuild header; 
114, ) else { 
ESA new_dev->hard_header = vlan_dev_hard_header; 
WAALS. new_dev->hard_start_xmit = vlan dev hard start xmit; 
SEO new dev-»rebuild header = vlan dev rebuild header; 
LIS } 
iit). new dev-»hard header parse = real dev--»hard header parse; 
120. 
ues d VLAN DEV INFO(new dev)-»vlan id = VLAN ID; /* 1 through VLAN VID MASK */ 
dT VLAN DEV INFO(new dev)-»real dev = real dev; 
1237 VLAN_DEV_INFO (new_dev)->dent = NULL; 
124; VLAN DEV INFO(new dev)-»5flags = 1; 
125% 
UA 5 if (register_netdevice (new_dev) ) 
qu. goto out free newdev; 
1289. 
LAS lockdep_set_class (&new_dev->_xmit_lock, &vlan_netdev_xmit_lock_key) ; 
130. 
TS new_dev->iflink = real dev-»ifindex; 
eee vlan transfer operstate(real dev, new dev); 
decas linkwatch fire event(new dev); /* MUST call rfc2863 policy() */ 
134. 
dE /* So, got the sucker initialized, now lets place 
1345 - * abe soa Obie l OCES EUC EUGEN 
137 « "y 
SOE grp = _vlan_find_group (real_dev->ifindex) ; 
163107 
140. /* Note, we are running under the RTNL semaphore 
avi. * so it cannot "appear" on us. 
142. uA 
TAS if (!grp) { /* need to add a new group */ 
144. grp = kzalloc(sizeof(struct vlan group), GFP KERNEL); 
145. 
146. grp-»real dev ifindex = real dev-»ifindex; 
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147 

148. hlist_add_head_rcu(&grp->hlist, 

149. &vlan_group_hash[vlan_grp_hashfn (real_dev->ifindex)]); 
150 

TSI if (real_dev->features & NETIF_F_HW_VLAN_RX) 
152€ real dev-»vlan rx register(real dev, grp); 
153 c } 

154 

DE SS grp-»vlan devices[VLAN ID] = new dev; 

SGo if (real_dev->features & NETIF_F_HW_VLAN_FILTER) 
ESS real dev-»vlan rx add vid(real dev, VLAN ID); 
158 

159; rin unlock (js 

160 

JL c return new dev; 

162 

GS. out_free_unregister: 

164. unregister_netdev (new_dev) ; 

155) - goto out unlock; 

166 

i67 s out free newdev: 

168. free netdev (new dev); 

NGG) 

LO. (ojBuc, brakes E 

WAL a sel omes (() 9 

iy 

WA out_put_dev: 

174 

IWS. (Oxbue. aere, Nate 

JUI return NULL; 

a gi s ) 





代码 段 7-1 register vlan device 函数 
































在 vlan group hash 全 局 hash 表 有 VLAN_GRP_HASH_SIZE 个 单元 ， 也 就 是 2020 个 单元 。 
不 知道 大 家 从 上 面 的 片断 看 出 Linux 下 VLAN 有 什么 问题 没有 。 









































































































VLAN 
DILE 4095 VLAN 
PPP 4095 
A | A 
VLANI | [VLANI 
/ 
` / 1 
1 
vlan_group | P4 i i vlan_group 
p. ^ OE x 
ifindex 7 7 " ifindex 
N r 
0: a / ^ á \ N 0: 
: / WA ^ N M H 
ato 4 42 xc Cw o cHo3É 
(0 ~ 7 .7 x ( vlan device 
^ P 一 S 
\ ae m 
| a N 
4095 4095 | 
物理 或 逻辑 的 使 物理 或 逻辑 的 
网 络 接 口 A 网 络 接口 B 
vlan_group_hash 
链 将 这 些 设 备 串 





图 表 7-6 VLAN“ 设 备 ” 组 织 图 


从 现在 的 实现 来 看 有 4 个 很 大 的 缺陷 : 
1l. 每 个 接口 要 指定 给 一 个 VLAN 时 要 创建 一 个 net_device{}+ vlan_dev_info{ } 大 小 的 设备 结 
构 给 内 核 ， 如 果 要 指定 多 个 VLAN， 那 得 需要 多 少 内 存 ? 
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2. 如 果 系 统 间 有 M 个 接口 ， 分 别 给 每 个 接口 指定 VLAN， 创 建 VLAN 得 时 候 并 不 检查 某 
VLAN 是 否 已 经 创建 ,如 果 把 M 个 接口 指定 给 同一 个 VLAN, 则 要 创建 M 个 相同 的 VLAN， 
如 果 要 指定 给 N 个 VLAN， 那 要 MXN 个 数据 结构 ， 太 浪费 
3. 从 vlan dev info( } 结 构 上 看 ， 它 上 只 保存 一 个 接口 的 指针 ， 也 就 是 说 内 核 无 法 将 某 VLAN 
下 的 接口 完全 找到 ， 造 成 了 一 个 接口 >VLAN 的 单 向 映射 : 可 以 找到 接口 所 属 的 所 有 
VLAN， 反 过 来 却 不 行 。 
4. ”根据 第 3 个 问题 ,IP 协议 栈 要 往 某 一 个 VLAN 发 包 时 ,不 能 发 到 VLAN 下 的 所 有 设备 上 。 
让 我 们 看 看 它 的 发 送 代码 : 
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[S9 d (2) 


int vlan dev hard start xmit(struct sk buff *skb, struct net device *dev) 
{ 
struct net_device_stats *stats = vlan_dev_get_stats (dev) ; 

struct vlan ethhdr *veth = (struct vlan ethhdr *) (skb-»data); 








/* Handle non-VLAN frames if they are sent to us, for example by DHCP. 
* 

* NOTE: THIS ASSUMES DIX ETHERNET, SPECIFICALLY NOT SUPPORTING 

* OTHER THINGS LIKE FDDI/TokenRing/802.3 SNAPs... 

5 





. if (veth-»h vlan proto != —. constant htons(ETH P 80210)) { 


int orig headroom = skb headroom(skb); 
unsigned short veth TCI; 


/* This is not a VLAN frame...but we can fix that! */ 
VLAN DEV INFO(dev)-»cnt encap on xmit-*-*; 





/* Construct the second two bytes. This field looks something 








* like: 

^" queue ote oS lese. nea lenis) 

"^ (Cum i joan 

SVAN LD 12 bits (low bits) 

E 

veth_TCI = VLAN_DEV_INFO (dev)->vlan_id; 

veth_TCI |= vlan dev get egress qos mask(dev, skb); 
skb = | vlan put tag(skb, veth TCI); 


if (orig headroom « VLAN HLEN) { 
VLAN DEV INFO(dev)-»cnt inc headroom on tx-*; 
} 
} 


. stats-—>tx_packetst+; /* for statics only */ 
. Stats-»tx bytes += skb->len; 


. Skb-»dev - VLAN DEV INFO(dev)-»real dev; 
. dev queue xmit (skb); 


"uci 


} 





代码 段 7-2 vlan dev hard start xmit 函数 








从 这 几 份 代码 来 看 ，Linux 只 能 支持 PC 端的 VLAN 的 部 分 功能 。 不 能 奢望 不 作 大 修改 就 使 








Linux 内 核 进 入 通信 设备 操作 系统 市 场 。 














如 何 解 决 这 个 问题 ， 我 想 从 3 个 方面 来 解决 。 
第 一 : ”要 改变 vlan_dev_info{ } 的 结构 ， 在 里 面 增加 一 个 hash 表 之 类 的 链表 记录 所 有 属于 该 
VLAN 的 设备 。 这 就 创造 了 一 个 双向 映射 接口 VLAN，。 


























第 二 : ”在 初始 化 的 时 
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内 存 消耗 会 减少 一 半 。 





B=: ”发 送 报 文 的 时 
既然 Linux 的 VLAN 3 


7.4 LACP 协议 


LACP: Link Aggregation Control Protocol 〈 链 路 聚会 协议 ) 


入 


而 LACP 1 


笔者 为 什么 选 这 个 协议 呢 ? [DX] 
理解 Linux 网 络 内 幕 》 
FE 好 曾经 是 我 接手 参与 的 一 个 协议 ， 当 初 也 是 参照 Linux 的 内 核实 现 进行 了 移植 到 
































候 如 果 发 现 该 VLAN 结构 已 经 创建 ， 就 不 要 在 创建 vlan_dev_info{} 了 。 





候 要 遍历 这 个 底层 设备 数据 链 ， 把 报 文 发 送 给 所 有 设备 。 
功能 这 么 弱 ， 我 们 就 不 再 对 其 进行 深入 的 研究 了 。 





为 这 个 协议 比较 偏 , 不 太 成 为 热门 , 没有 人 跟 我 抢 @@, 看 了 《 深 














， 发 现 已 经 有 关于 2 层 协议 比如 STP 的 分 析 了 。 总 不 能 再 炒 一 遍 剩 饭 吧 。 








VxWorks 产品 上 ， 对 他 既然 这 么 熟 就 不 能 不 介绍 了 吧 。 


7.4.1 LACP 简介 





链 路 聚合 可 以 让 交换 机 之 间 和 交换 机 与 服务 器 之 间 的 链 路 带 


端口 的 负载 均衡 ， 同 时 也 能 够 互 为 备份 ， 保 订 


可 以 支持 4 组 链 路 聚合 ， 
































宽 有 非常 好 的 伸缩 性 ， 比 如 可 以 
把 2 个 、3 个 、4 个 干 兆 的 链 路 绑 定 在 一 起 ， 使 链 路 的 带宽 成 倍增 长 。 链 路 聚合 技术 可 以 实现 不 同 





E 链 路 的 见 余 性 。 在 这 些 干 光 以 太 网 交换 机 中 ， 最 多 




















每 组 中 最 大 4 个 端口 。 链 路 聚合 一 般 是 不 允许 跨 世 片 设 置 的 。 


客户 端 设备 汇聚 交换 机 核心 交换 机 


Trunk 


高 端 路 由 器 




















制订 于 1999 年 年 中 的 802.3ad 标准 定义 了 如 何 将 两 个 以 


图 表 7-7 LACP 应 用 场景 





宽 网 络 连接 实现 负载 共享 、 负 载 平 衡 以 及 提供 更 好 的 弹性 。 
这 并 不 是 一 种 新 概念 ， 许 多 厂商 支持 用 于 10/100Mbps 以 太 网 和 FDDI 的 专用 “干线 ”技术 


(trunking) 已 经 有 很 多 年 了 。 这 一 标准 的 独特 之 处 在 于 标准 化 实 































































































于 将 多 个 低速 端口 组 合 起 来 形成 更 快 的 点 到 点 风 辑 链 路 的 专 月 
ELH SCH 802.3ad 的 产品 ， 你 会 看 到 在 不 同 网 卡 和 交换 机 产品 中 出 现 越 来 越 多 的 兼容 


直 
卡 厂商 开始 
性 ， 并 会 看 到 其 他 一 些 重要 好 处。 








首先 ， 这 项 标准 适 月 














HF 10M, 100M 和 1000Mbps 以 太 网 。 





x A 
聚合 在 























上 的 千 兆 以 太 网 连接 组 合 起 来 为 高 带 





现 链 路 聚合 ，802.3ad 意味 着 一 
技术 的 终结 。 随 着 交换 机 和 网 








E 一 起 的 链 路 可 以 在 一 条 单 








逻辑 链 路 上 组 合 使 用 上 述 传输 速度 ， 这 就 使 用 户 在 交换 机 之 间 有 一 个 干 兆 端口 以 及 3 或 4 个 





100Mbps 端口 时 有 更 多 的 选择 ， 可 以 以 负担 得 起 的 方式 逐渐 增加 带宽 。 由 于 网 络 传输 流 被 动态 地 
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分 布 到 各 个 端口 ， 因 此 在 聚合 链 路 中 自动 地 完成 了 对 实际 流 经 某 个 端口 的 数据 的 管理 。 

随 着 网 络 人 带宽 需求 不 断 地 增长 ， 可 伸缩 性 至 关 重 要 。 显 然 ， 它 对 于 可 以 从 添加 更 多 和 干 兆 吞吐 
量 中 受益 的 骨干 线路 连接 来 说 是 件 好 事 。 我 们 不 应 忽视 服务 器 的 链 路 聚合 ， 高 性 能 服务 器 现在 开 
始 在 干 光 位 范围 内 支持 网 络 IO。 

服务 器 不 仅 能 正常 地 发 送 和 接收 如 此 巨 量 的 数据 ,而且 还 有 不 少 服务 器 具有 剩余 的 CPU 周期 
完成 一 些 应 用 工作 。 在 服务 器 功能 变 得 更 强 、 网 络 否 吐 量 需求 变 得 更 大 的 情况 下 ， 链 路 聚合 为 扩 
展 留 出 了 余地 ， 最 多 可 以 文 持 8Gbps 的 全 双 工 传输 。 

802.3ad 的 男 一 个 主要 优点 是 可 靠 性 。 在 链 路 速度 可 以 达到 8Gbps 的 情况 下 ， 链 路 故障 将 是 一 
场 灾难 。 关 键 任 务 交 换 机 链 路 和 服务 器 连接 必须 既 具 有 强大 的 功能 又 值得 信赖 。 即 使 一 条 电缆 被 
误 切 断 的 情况 下 ， 它 们 也 不 会 瘫痪 ， 这 正 是 802.3ad 所 具有 的 一 个 有 趣 的 附带 的 好 处 。 

这 项 链 路 聚合 标准 在 点 到 点 链 路 上 提供 了 固有 的 、 自 动 的 元 余 性 。 换 句 话说 ， 如 果 链 路 中 所 
使 用 的 多 个 端口 中 的 一 个 端口 出 现 故 障 的 话 ， 网 络 传输 流 可 以 动态 地 改 向 链 路 中 余下 的 正常 状态 
的 端口 进行 传输 。 这 种 改 向 速度 很 快 ， 当 交换 机 得 知 媒体 访问 控制 地 址 已 经 被 自动 地 从 一 个 链 路 
端口 重新 分 配 到 同一 链 路 中 的 另 一 个 端口 时 ， 改 向 就 被 甬 发 。 然 后 这 台 交 换 机 将 数据 发 送 到 新 端 
人 位置， 并且 在 服务 几乎 不 中 断 的 情况 下 ， 网 络 继续 运行 。 
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图 表 7-8 链 路 聚合 场景 中 对 上 层 协 议 的 影响 








要 聚合 的 端口 要 求 

1. 端口 成 员 类 型 LAN/WAN 一 致 ; 
2. 端口 成 员 速 率 ， 双 工 模式 一 致 
加 入 聚合 组 后 








3. 端口 的 vlan 配置 ，tag 属性 先 恢复 默认 

4. 用 户 只 能 对 聚合 组 trunk 设置 属性 

5. 端口 成 员 vlan WA, tag 属性 要 和 聚合 组 属性 一 致 
聚合 方法 
































表格 7-1 


类 型 配置 ILACP de 点 
SRE 





disable 3s 4T BL, MICRA, RATE 
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运行 状态 机 ， 比 较 两 端 信息 
业务 不 丢 包 


PX T cH BX 
XA TRA 




















ŽK H A 























Enable lacp 协议 表示 设备 两 端 运 行 协议 状态 机 ,利用 LACPDU 交互 信息 ,实现 聚合 功能 .LACP 
协议 通过 LACPDU 与 对 端 交 互信 息 。 端 口 发 送 LACPDU 向 对 端 通告 自己 的 系统 优先 级 , 系统 mac, 
端口 优先 级 ， 端 口号 ， 操 作 key。 对 端 接收 到 这 些 信息 后 ， 将 这 些 信息 与 本 端 保存 相关 信息 进行 
比较 以 选择 能 够 聚合 的 端口 ， 从 而 双方 可 以 对 端口 加 入 或 退出 聚合 组 达成 一 致 。 



























































DA (0x01-80-c2-00-02) 
SA 
Type (0x8809) 
Subtype (0x01) 
Actor Info TLV 
Partner Info TLV 
Collector Info TLV 
End TLV 
Reserved 
FCS 

















128 BYTEs 





























图 表 7-9 LACP 报 文 格式 





LACP 是 一 种 慢 协议 ， 据 802.3-2002 协议 标准 规定 每 秒 至 多 发 送 3 包 LACPDU. 
1， 用 户 下 发 端口 动态 聚 和 配置 命令 
2. 端口 速率 ， 双 工 模式 校 验 
3. 端口 逻辑 加 入 聚合 组 ， 各 自 运行 状态 机 ， 发 送 LACPDU 与 对 端 端口 进行 信息 交互 
4.， 当 端口 符合 条 件 
获取 的 对 端 信息 和 聚合 组 的 对 端 信息 (系统 ID,key) 一 致 ; 
本 端口 与 聚合 组 本 端 信息 (系统 ID,key) 一 致 ; 
设备 两 端 系统 ID 不 一 致 (确保 不 在 同一 设备 聚合 ); 
状态 机 运行 将 端口 硬件 物理 加 入 聚合 组 ， 业 务 基 于 hash 算法 在 物理 聚合 端口 分 发 报 文 
LACP 协议 与 多 种 协议 在 数据 板 卡 并 行 运行 时 ， 由 于 LACP 协议 会 对 多 条 物理 链 路 进行 逻辑 
聚合 ， 控 制 物理 端口 的 收发 状态 ， 从 而 对 上 层 协议 产生 影响 。 
而 802.3 标准 明确 提出 , LACP 协议 要 兼容 上 层 协议 和 应 用 。 这 就 涉及 到 LACP 和 其 他 协议 的 
耦合 处 理 问 题 。 
7.4.2 LACP 在 Linux 中 的 实现 
LACP 实际 在 通信 设备 产品 中 是 以 一 个 独立 的 模块 实现 的 , 而 Linux 放 在 内 核 , 这 会 导致 很 多 
读者 在 研究 这 个 协议 的 时 候 出 现 “ 头 晕 ” 的 情况 。 由 于 我 曾经 真正 把 这 一 块 拿 出 来 仔仔 细 细 的 研 
究 ， 所 以 对 这 个 协议 还 是 比较 了 解 的 。 不 仅 如 此 ， 由 于 这 段 经 历 ， 我 学 习 到 要 实现 或 者 研究 一 个 
网 络 协议 主要 的 方法 。 就 是 ， 不 管 这 个 协议 有 多 复杂 ， 它 只 可 能 有 3 个 输入 : 
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用 户 








Lun NN $ = p ES - 
对 端 协议 体 。 协议 报 文 J E (= 操作 系统 


图 表 7-10 协议 原理 图 
当 一 个 协议 状态 机 随 着 系统 启动 而 启动 ， 它 必定 是 受 上 图 中 3 个 激励 方向 中 的 一 个 或 多 个 所 
推动 。 操 作 系 统 发 出 的 定时 器 消息 可 以 维持 协议 的 运转 ， 但 是 最 终 决定 协议 产生 作用 的 还 是 用 户 
的 配置 命令 ， 大 家 可 以 回想 卫 协议 栈 的 工作 其 实 都 始 于 我 们 对 接口 的 配置 。 当 对 端 协 议 体 发 出 的 












































协议 报 文通 过 设备 及 中 断 程序 之 后 到 达 协 议 代 码 后 ， 协 议 才能 更 进一步 的 运转 下 去 。 那 么 ， 我 们 
的 LACP 也 不 例外 。 只 要 抓 住 了 这 三 要 素 ， 解 剖 这 个 协议 真是 举 手 之 劳 。 

下 图 是 我 在 调试 Linux WE LACP 模块 时 分 析 得 到 的 LACP 状态 机 的 运转 图 。 要 看 懂 这 个 
估计 要 把 802.3ag 协议 和 源 代码 结合 起 来 ， 逐 步 地 看 。 
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If port up or LACPDU 
Set down >reset NC 
P 


actor oper port state machine state Q 


in view of 
sm rx state 


N 
cp 
Q 


partner oper port state 






If 


Rese 
(sm tx timer counter sm periodic üimer cou 
-- 2) && (ntt) nter in viw of 

sm periodic| state 

actor oper port state 
Set 
actor oper port state |f !(sm vars & 
in view of LAC PORT SELECTED) 
sm mux state then 





lac AgSelectionLogic 
— ——5 Read op 


— Write op 
<—} Read & write 


图 表 7-11 LACP 状态 机 的 运转 图 
























































首先 ， 要 明白 一 个 状态 机 要 运转 必须 有 外 部 激励 ,在 大 部 分 网 络 协议 中 外 部 激励 主要 有 3 种 : 
(1) 用 户 的 配置 命令 

(20. 对 端 交 流 对 象 的 数据 报 文 

(3) 定时 器 

在 上 图 中 我 们 处 于 简化 图 示 的 原因 ， 已 经 省 略 了 用 户 配置 的 命令 及 产生 的 影响 ， 但 是 读者 
定 要 记 住 配置 才 是 影响 协议 运行 的 最 大 因素 。 然 后 此 图 上 部 是 2 个 外 部 激励 : 一 个 200 毫秒 的 定 
时 器 ， 一 个 对 端 LACP 实体 发 送 过 来 的 报 文 。 一 般 我 的 习惯 是 先 研 究 收 到 报 文 时 状态 机 的 运行 方 
向 ， 在 此 是 顺 时 针 反 向 。 有 共 体 的 处 理 流 程 大 家 可 以 参照 协议 标准 和 代码 ， 因 为 那 一 部 分 是 和 操作 
系统 无 关 ， 在 本 书 中 不 付 袭 述 。 我 展现 给 大 家 的 ， 依 然 是 和 Linux 联系 最 密切 的 部 分 。 





































































































bonding_init 
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bond create 








创建 
net_device{}+bonding{} 

















alloc_netdev 结构 ， 然 后 把 它 注 册 到 
内 核 hash 表 中 。 这 和 创 
EVLANIS A s An d — Slt 

bond init 























register netdevice 














register netdevice notifier(&bond netdev notifier) 








系统 将 bond 的 接口 看 成 一 个 “设备 ”和 有 














register_inetaddr_notifier(&bond_inetaddr_notifier) 

















图 表 7-12 bonding_init 函数 调用 树 




















E 我 们 之 前 讨论 实际 物理 设备 时 已 经 看 到 过 alloc_netdev 











All register netdevice 函数 ,那么 这 个 逻辑 设备 与 物理 设备 不 同 之 处 在 哪 呢 ? 就 在 下 面 这 个 bond_init 


中 








函数 


AIAN 4» CO N20 L2 


. bond-»primary slave = 
. bond->dev = 


. bond dev-»open = 
. bond dev-»stop = 
. bond dev-»get stats = 
. bond dev-»do ioctl = 


. bond dev-»set mac address = 


. bond dev-»destructor = 


static int bond init(struct net_device *bond dev, 


{ 


struct bonding *bond = bond_dev->priv; 


bond->params = *params; tI bonding_defaults 参数 
bond->first_slave = NULL; 

bond->curr_active_slave = NULL; 
bond->current_arp_slave = NULL; 

NULL; 














bond_dev; 
INIT LIST HEAD(&bond-»vlan list); 


Hf 


/* Initializ 





the devic ntry points 
bond open; 

bond close; 
bond get stats; 
bond do ioctl; 


bond set mac address; 


. bond set mode ops (bond, bond-»params.mode); 


free netdev; 


/* Initialize the device options */ 





. bond dev-»tx queue len = 0; 
. bond dev-»flags |= IFF. MASTER|IFF. MULTICAST; 
/* At first, we block adding VLANs. 


struct bond params *params) 


That's the only way to 


* prevent problems that occur when adding VLANs over an 





* empty bond. The block will b 
* slaves are enslaved. 


af 


removed onc 


. bond_dev->features |= NETIF_F_VLAN_CHALLENGED; 





/* don't acquire bond device's netif_tx_lock when 


non-challenged 
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38. * transmitting */ 





39. bond_dev->features |= NETIF F LLTX; 

40. 

41. list add tail(&bond-»bond list, &bond dev list); 
AD - 

43. return 0; 

44. } 





代码 段 7-3 bond init 函数 








上 面 是 bond 接口 的 初始 化 ， 但 是 它 要 等 到 用 户 把 它 open 的 时 候 才 能 正常 工作 。 那 么 相应 的 
open 例 程 如 下 : 





























1. static int bond_open(struct net_device *bond_dev) 

Bs 4 

3. struct bonding *bond = bond_dev->priv; 

4. struct timer_ list *mii timer = &bond->mii timer; 

5. struct timer_list *arp_timer = &bond->arp_timer; 

Gx 

el ne Ibi jeameiess = (p 

8. 

es. omo d 

KOS 

11. if (bond->params.mode == BOND_MODE_8023AD) { 

T2% struct timer list *ad timer = &(BOND AD INFO(bond).ad timer); 

Lm init timer (ad timer); 

Tas ad_timer->expires = jiffies + 1; 

qb ad timer-»data = (unsigned long) bond; 

GS ad_timer->function = (void *) &bond_3ad_state machine handler; 

T add timer(ad timer); Ilvoidilbond register lacpdu(struct bonding *bond) 
注册 接收 LACPDU T8 3C [HL Beas Struct “packet type pk type = 

Bt bond_register_lacpdu (bond) ; & (BOND_AD_INFO (bond) .ad_pkt_type) ; 

21. pk type-»type = PKT TYPE LACPDU; 

22. return 0; pk type-»dev = bond->dev; 

23. ] pk type-»func = bond 3ad lacpdu recv; 

代码 段 7-4 bond open dev add pack (pk type); 














凡是 LACP 报 文 其 报 文 头 是 PKT_TYPE LACPDU (0x8809)， 所 以 在 上 面 注册 该 类 报 文 接收 
函数 bond_3ad_lacpdu_recv。 
上 面 定 时 器 的 回调 函数 bond 3ad state machine handler 就 是 LACP 状态 机 主要 的 函数 。 它 定 


















































时 扫描 物理 端口 的 状态 和 选择 逻辑 。 
li/ 

De * bond 3ad state machine handler - handle state machines timeout 

Se * @bond: bonding struct to work on 

4. 5 

57 * The state machine handling concept in this module is to check every tick 
Ge * which state machine should operate any function. The execution order is 
7l e * round robin, so when we have an interaction between state machines, the 
on * reply of one to each other might be delayed until next tick. 

OF x 

10. * This function also complete the initialization when the agg_select_timer 
11. * times out, and it selects an aggregator for the ports that are yet not 
12. * related to any aggregator, and selects the active aggregator for a bond. 
je m 

14. void bond_3ad_state_machine_handler(struct bonding *bond) 

i5. 4 

iL. ‘lee tol "ore “oaley 

17. struct aggregator *aggregator; 

19. 

19. read lock(&bond-»lock); 
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20. 
2L « 
22° 
De 
24. 
25 
29. 
BT c 
DOE 
29). 
SOF 
SL c 


SAC 
33. 
34. 
Sor 
36. 
S e 
38. 
EIE 
40. 
aL . 
42. 
43. 
44. 
45. 
46. 
ihe 
48. 
49. 
SOS 
Subs 
52 
53) 
54. 
55 
SI6R 
5], c 
SE 
SIR 

















if (bond->kill timers) { 
qOLO UE 
} 
//check if there are any slaves 
if (bond->slave_cnt == 0) ( 
Wolo. ES En 
} 
// check if agg_select_timer timer after initialize is timed out 
if (BOND_AD_INFO(bond) .agg_select_timer 
&& !(--BOND AD INFO(bond).agg select timer)) { 
// select the active aggregator for the bond 
if ((port = | get first port (bond))) { 
aggregator = _ get first agg(port); 
ad agg selection logic (aggregator); 
} 
} 
// for each port run the state machines 
fn on NNI laa Sie _joyoyeie ((loyouevel)) on joie = _ Cie et Ob POr) P {I 
ad_rx_machine (NULL, port); 
ad periodic machine (port); 
ad port selection logic (port); 
ad mux machine (port); 
ad tx machine (port); 
// turn off the BEGIN bit, since we already handled it 
if (port-»sm vars & AD PORT BEGIN) { 
port-»sm vars &= -AD PORT BEGIN; 
) ad delta in ticks = (AD TIMER INTERVA 
} 
* HZ) / 1000 在 大 多 数 系 统 中 是 100ms。 
re_arm: 
mod timer(&(BOND AD INFO(bond).ad timer), jiffies + ad delta in ticks); 


ONES 
read unlock(&bond-»lock); 
} 








代码 段 7-5 bond 3ad state machine handler 函数 


在 这 个 定时 器 函数 中 我 们 要 注意 的 是 ad rx machine 函数 , 它 在 此 传 入 的 参数 是 NULL， 即 没 




















有 传 入 报 文 进入 到 这 个 函数 中 。 不 仅 定 时 器 函数 调用 了 这 个 函数 ， 真 正 的 报 文 接收 函数 




















bond 3ad lacpdu recv 函数 最 终 也 调用 了 这 个 函数 ， 不 过 此 时 传 入 的 参数 是 对 端 发 送 的 LACP 报 
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图 表 7-13 bond 3ad lacpdu recv 函数 调用 树 








LACP 基本 上 也 就 介绍 完毕 , 大 家 可 以 按照 这 个 思路 去 分 析 STP (生成 树 协 议 )、IGMP Snoopy 


协议 。 


Linux2.6 协议 栈 源 代 码 分 析 


B de 





写 完 这 本 书 ， 我 只 能 感叹 ， 时 间 真 是 靠 挤 出 来 的 。 虽 然 本 书 错漏 百出 《特别 是 后 
半截 )， 但 是 我 还 是 要 现在 挂 出 来 ， 因 为 我 效 了 三 年 ， 我 的 仔仔 就 要 出 来 了 ， 如 果 总 是 
一 拖 再 拖 ， 估 计 我 仔仔 可 以 帮 有 我 来 完成 了 。 所 以 ， 请 大 家 见谅 ， 让 这 本 书 和 我 仔仔 一 
起 成 长 吧 。 

尽管 《深入 理解 Linux 网 络 内 幕 》 已 经 面市 ， 但 我 还 是 觉得 我 要 继续 完成 这 部 分 
工作 ,一 来 了 却 自己 的 愿望 ， 二 来 希望 用 自己 的 语言 和 见解 来 分 析 Linux 的 协议 栈 ， 
使 之 更 符合 中 国 软件 工程 师 的 需要 。 我 的 目的 融 达 到 了 。 本 书 的 名 字 叫 《Linux 协议 
栈 源 码 分 析 》。 即 看 此 书 能 大 概 了 解 Linux 是 如 何 实现 TCP/IP 协议 栈 的 ， 但 却 不 是 能 
用 来 当 枕 头 的 “ 红 宝 书 ” 所 以 ， 你 必须 结合 协议 的 RFC 文档 来 看 本 书 。 

本 人 将 选择 Linux 和 FreeBSD 的 网 络 协议 栈 作为 自己 的 业余 研究 对 象 。 所 以 本 套 
书 应 该 有 2 A, 该 本 是 Linux 协议 栈 的 刨 析 。 另 一 本 还 在 计划 之 中 。 为何 选择 这 两 者 ? 
其 一 : 代码 是 公开 且 免 费 的 ， 不 会 有 公司 来 找 我 肪 烦 ， 我 也 不 需 采 用 极端 的 方式 获取 
这 些 代 码 。 其 二 : 这 两 种 代码 已 成 为 网 络 应 用 之 事实 标准 ，Linux 在 当前 大 行 其 道 ， 
自 不 必 说 ， 而 FreeBSD 是 BSD 家 族 中 应 用 最 广泛 者 ， 其 协议 栈 为 VxWorks 等 工业 级 
操作 系统 采用 ， 而 且 是 故去 的 steven 所 车 的 《TCP-IP 详解 _ 卷 2 实现 》 的 代码 基 。 为 
投 开 发 人 员 之 所 好 ， 我 决定 研究 这 2 个 操作 系统 的 网 络 协议 栈 。 本 书 就 是 我 的 第 一 本 
关于 Linux 方面 的 文档 。 将 来 有 时 间 我 将 写 出 FreeBSD 的 协议 栈 文 档 。 

我 们 知道 如 果 想 研究 BSD 的 协议 栈 可 以 看 Gray R.Wright 和 W.Richard Stevens 编 
‘Sf «TCP/IP Illustrated Volume2: The Implementation) (中文 译 名 :《TCP/IP 详解 卷 
2: 实现 》), 但 是 FreeBSD 已 经 进化 到 7.0 版 本 了 , 其 内 部 的 结构 已 经 有 相当 大 的 变化 ， 
光 看 那 本 书 估 计 还 不 够 。 而 且 ， 根 据 我 的 经 验 ， 作 为 高 端 般 入 式 软 件 市 场 占有 量 最 大 
KA SN BRE BSE VxWorks， 其 网 络 协议 栈 即 从 BSD 发 展 而 来 ， 却 对 BSD 协议 栈 进 
行 了 大 量 的 修改 ， 连 代码 风格 都 不 一 样 。 但 看 这 本 书 就 更 不 能 完全 理解 Vx Works 的 网 
络 协议 栈 。 于 是 许多 研究 者 在 研究 路 由 器 操作 系统 的 协议 栈 时 ， 不 知 从 何 处 研究 起 。 

Linux 和 FreeBSD 的 协议 栈 有 很 大 不 同 ， 研 究 两 者 才 会 有 对 比 。FreeBSD 已 发 展 
至 7.0 (2008/9)， 其 协议 栈 已 经 做 了 相当 多 的 改动 。 我 觉得 应 该 会 有 很 多 内 容 可 以 写 
的 。 

在 本 文 完 成 之 际 ， 作 者 说 向 所 有 给 予 我 指导 、 关 心 、 文 持 和 帮助 的 老师 、Leader、 
同事 、 同 学 和 亲人 和 致 以 衷心 的 感谢 ! 
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